Title: | Uma abordagem de sobreamostragem temporal como mecanismo para a redução da estimativa de incerteza em modelos epidêmicos com perspectiva bayesiana: estudo de caso da COVID-19 |
Author: | Gonçalves, André Vinícius |
Abstract: |
O cenário de previsão epidêmica, com períodos de inflexão e constantes mudanças no comportamento da população, é extremamente crítico. Por isso, há um consenso crescente no processo de modelagem de doenças infecciosas de que as previsões não devem indicar apenas um resultado pontual, mas também quantificar a própria incerteza. A quantificação do quão errado o modelo pode estar ajuda a aumentar a confiabilidade e a credibilidade do processo de inferência. Nesse sentido, esta tese investiga a estimativa da incerteza nas previsões epidêmicas da COVID-19. O desenvolvimento da pesquisa caracteriza-se principalmente pela formalização de uma técnica computacional de sobreamostragem temporal, denominada SMOTER-TS, cuja função é aprimorar a precisão e reduzir a incerteza em modelos de Machine Learning. A rotina baseia-se na interpolação de amostras existentes para criar sinteticamente outras semelhantes. Diferentemente de outras abordagens, seus operadores de seleção foram concebidos com base na variável temporal que sequencializa os dados, possibilitando maior ênfase na consolidação dos padrões mais recentes da série temporal. Os experimentos se concentraram na previsão diária da média móvel de 7 dias de casos e mortes para os dez estados mais populosos dos Estados Unidos, com horizonte de 28 e 14 dias à frente, respectivamente. Entre os cinco métodos com perspectiva bayesiana testados ? Monte Carlo Dropout, Concrete Dropout, Spatial Dropout, Bayes by Backprop e Stochastic Weight Averaging Gaussian ? os resultados demonstraram desempenho bastante satisfatório com a adoção do SMOTER-TS na rotina de préprocessamento. Houve um avanço expressivo na redução da incerteza, refletido por ganhos médios de 43,19% e 33,01% na métrica NMPIL, 51,93% e 11,98% na Log Likelihood e, 35,82 e 31,91% na WIS, para a modelagem de casos e mortes, respectivamente. Além disso, constatou-se maior precisão pontual por meio do MSE, com melhora média de 52,85% em casos e 29,76% em mortes. A técnica proposta garantiu um processo probabilístico mais assertivo, com estimativas mais próximas do valor observado e com menor variabilidade. Dessa forma, entende-se que isso permitirá respostas mais adequadas tanto para orientar a alocação eficiente de recursos quanto para avaliar a eficácia de intervenções públicas de saúde em cenários de epidemias e pandemias. Abstract: The epidemic forecasting scenario, characterized by inflection periods and constant shifts in population behavior, is extremely critical. Consequently, there is a growing consensus within infectious disease modeling that predictions should not only indicate a single-point outcome but also quantify the associated uncertainty. Quantifying how wrong the model might be enhances the reliability and credibility of the inference process. In this context, this thesis investigates uncertainty estimation in COVID-19 epidemic forecasts. The research development is primarily defined by the formalization of a computational temporal oversampling technique called SMOTER-TS, designed to enhance accuracy and reduce uncertainty in Machine Learning models. This method relies on the interpolation of existing samples to synthetically create similar ones. Unlike other approaches, its selection operators were developed based on the temporal variable that sequences the data, allowing for a stronger emphasis on consolidating the most recent patterns in the time series. The experiments focused on the daily forecasting of the 7-day moving average of cases and deaths for the ten most populous U.S. states, with horizons of 28 and 14 days ahead, respectively. Among the five Bayesian perspective methods tested ? Monte Carlo Dropout, Concrete Dropout, Spatial Dropout, Bayes by Backprop, and Stochastic Weight Averaging Gaussian ? the results demonstrated highly satisfactory performance when incorporating SMOTER-TS into the preprocessing routine. There was a significant improvement in uncertainty reduction, reflected by average gains of 43.19% and 33.01% in the NMPIL metric, 51.93% and 11.98% in Log Likelihood, and 35.82% and 31.91% in WIS for case and death modeling, respectively. Additionally, increased point precision was observed via the MSE, with an average improvement of 52.85% in cases and 29.76% in deaths. The proposed technique ensured a more reliable probabilistic process, with estimates closer to observed values and lower variability. Thus, it is anticipated that this will enable more suitable responses for guiding efficient resource allocation and evaluating the effectiveness of public health interventions in epidemic and pandemic scenarios. |
Description: | Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa Pós-Graduação em Ciência da Informação, Florianópolis, 2024. |
URI: | https://repositorio.ufsc.br/handle/123456789/264266 |
Date: | 2024 |
Files | Size | Format | View |
---|---|---|---|
PCIN0375-T.pdf | 2.790Mb |
View/ |