Desenvolvimento de um ETL para dados de mortalidade neonatal e um modelo multivariado de aprendizado de máquina para predição da taxa de mortalidade neonatal

DSpace Repository

A- A A+

Desenvolvimento de um ETL para dados de mortalidade neonatal e um modelo multivariado de aprendizado de máquina para predição da taxa de mortalidade neonatal

Show simple item record

dc.contributor Universidade Federal de Santa Catarina. pt_BR
dc.contributor.advisor Lourenço, Luís Antonio
dc.contributor.author Pereira, Pedro Matiucci
dc.date.accessioned 2025-12-10T00:28:14Z
dc.date.available 2025-12-10T00:28:14Z
dc.date.issued 2025-12-05
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/270745
dc.description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação. pt_BR
dc.description.abstract A taxa de mortalidade neonatal é um dos principais indicadores utilizados para avaliar a efetividade das políticas públicas e o desempenho da Atenção Primária à Saúde (APS), além de compor o conjunto de indicadores do Plano de Desenvolvimento Sustentável da Organização das Nações Unidas (ONU). No entanto, os dados referentes a esse desfecho costumam levar cerca de um ano para serem consolidados oficialmente, o que gera uma defasagem temporal significativa e dificulta a realização de análises em tempo real. Essa limitação compromete a capacidade de resposta do sistema público de saúde e retarda o desenvolvimento de ações preventivas e políticas baseadas em evidências atualizadas.Diante desse cenário, este trabalho tem como objetivo desenvolver um pipeline de ETL (Extract, Transform and Load) para integrar, transformar e armazenar dados provenientes dos sistemas públicos de informação do DataSUS, especificamente o Sistema de Informações sobre Mortalidade (SIM) e o Sistema de Informações sobre Nascidos Vivos (SINASC), utilizados para o cálculo da taxa de mortalidade neonatal. Além disso, foram incorporados dados do Sistema de Informação em Saúde para a Atenção Básica (SISAB), com o intuito de compor uma abordagem multivariada que considera indicadores relacionados à saúde materno-infantil, como proporção de gestantes com pré-natal adequado, realização de exames e cobertura citopatológica. Com base nesses dados, foi desenvolvido um modelo preditivo multivariado utilizando técnicas de aprendizado de máquina utilizando o algoritmo XGBoost, amplamente reconhecido por sua eficiência em tarefas de regressão. O modelo proposto visa estimar a taxa de mortalidade neonatal de forma antecipada em cidades de grande porte com periodicidade quadrimestral, permitindo análises mais ágeis e contribuindo para o aprimoramento das ações de vigilância e planejamento em saúde pública.O estudo adota a metodologia CRISP-DM e aplica a otimização bayesiana para aprimorar o desempenho do modelo XGBoost. Os resultados obtidos foram comparados com um modelo baseado em séries temporais (SARIMA), demonstrando que o modelo proposto apresentou desempenho superior em todas as métricas avaliadas, incluindo o erro quadrático médio (RMSE), com redução aproximada de 5%, e o erro percentual absoluto médio (MAPE), com diminuição de cerca de 7% no erro. pt_BR
dc.description.abstract The neonatal mortality rate is one of the main indicators used to assess the effectiveness of public policies and the performance of Primary Health Care (PHC). It is also part of the indicator framework of the United Nations Sustainable Development Goals (SDGs). However, data related to this outcome usually take about a year to be officially consolidated, which creates a significant time lag and hinders real-time analyses. This limitation reduces the responsiveness of the public health system and delays the implementation of preventive actions and evidence-based policies.In this context, this study aims to develop an ETL (Extract, Transform, and Load) pipeline to integrate, transform, and store data from the public information systems managed by DataSUS, specifically the Mortality Information System (SIM) and the Live Birth Information System (SINASC), which are used to calculate the neonatal mortality rate. Additionally, data from the Primary Health Care Information System (SISAB) were incorporated to build a multivariate approach that includes maternal and child health indicators, such as the proportion of pregnant women with adequate prenatal care, the performance of laboratory tests, and cytopathological coverage.Based on these data, a multivariate predictive model was developed using machine learning techniques, particularly the XGBoost algorithm, widely recognized for its efficiency in regression tasks. The proposed model aims to estimate the neonatal mortality rate in large municipalities on a four-month basis, enabling faster analyses and contributing to improvements in health surveillance and planning. The study follows the CRISP-DM methodology and applies Bayesian optimization to enhance model performance. The results were compared with a time series model (SARIMA), demonstrating that the proposed model presented superior results in all evaluated metrics, with an approximately 5% reduction in Root Mean Squared Error (RMSE) and a 7% decrease in Mean Absolute Percentage Error (MAPE). pt_BR
dc.format.extent 123 f. pt_BR
dc.language.iso por pt_BR
dc.publisher Florianópolis, SC. pt_BR
dc.rights Open Access. en
dc.subject Machine Learning pt_BR
dc.subject ETL pt_BR
dc.subject Séries temporais pt_BR
dc.subject Mortalidade Neonatal pt_BR
dc.title Desenvolvimento de um ETL para dados de mortalidade neonatal e um modelo multivariado de aprendizado de máquina para predição da taxa de mortalidade neonatal pt_BR
dc.type TCCgrad pt_BR
dc.contributor.advisor-co Lucca, Jose Eduardo de


Files in this item

Files Size Format View Description
TCC.pdf 2.228Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar