Title: | Efetividade de técnicas de aprendizado de máquina aplicadas a Data Matching |
Author: | Weiss, Beatriz |
Abstract: |
Data matching é o processo de corresponder dados provenientes de diferentes fontes, enfrentando como principal desafio a ausência de chaves primárias e inconsistências nos dados, que dificultam decisões manuais e reduzem a confiabilidade das comparações. Com os avanços tecnológicos, foi firmado uma relação promissora entre integração de dados e aprendizado de máquina, proporcionando maior precisão nos resultados e redução de custos. Essa evolução abre espaço para a análise comparativa do desempenho de diferentes algoritmos de machine learning aplicados ao data matching. Este trabalho se propõe a avaliar os algoritmos mais utilizados na literatura nos últimos dez anos para a tarefa de data matching, selecionando Neural Network (Multi-layer Perceptron Classifier), Support Vector Machine (Support Vector Classifier) e Random Forest (Random Forest Classifier) a partir de uma Revisão Narrativa. Como não há um dataset amplamente adotado nesse contexto, foram utilizados dados de Processos Licitatórios e Notas Fiscais, provenientes do Projeto CÉOS - um projeto de pesquisa com colaboração e financiamento do Ministério Público de Santa Catarina (MPSC). O método aplicado compreendeu o estudo e exploração do problema, construção do dataset e teste dos algoritmos no data matching, sendo replicado em uma base de dados de empresas visando avaliar a consistência dos resultados em um contexto diferente. Automatizações foram implementadas para a seleção de atributos e otimização de hiperparâmetros, enquanto as métricas de Acurácia, Precisão, Revocação, F1-Score e Matriz de Confusão serviram para análise do desempenho. Os resultados mostraram que Random Forest e Neural Networks tiveram os melhores desempenhos nos dois datasets, com Neural Networks liderando em Acurácia, Revocação e F1-Score no segundo experimento, mas Random Forest alcançando a melhor Precisão em ambos experimentos e consolidando-se como o algoritmo mais eficiente neste estudo, seguido por Neural Networks e, por último, Support Vector Machine. O estudo ainda disponibiliza o código desenvolvido, permitindo a ampliação da análise para outros datasets. Este estudo abre caminhos para pesquisas futuras, incluindo a análise do desempenho dos algoritmos em função dos tipos de variáveis, a avaliação de diferentes métodos de seleção de atributos e o impacto no desempenho, além da investigação de critérios mais robustos baseados na combinação de métricas. Outra direção seria expandir o conjunto de algoritmos analisados para avaliar sua eficácia em diferentes datasets de data matching. Data matching is the process of matching data from different sources, with its main challenge being the absence of primary keys and data inconsistencies, which complicate manual decision-making and reduce the reliability of comparisons. With technological advancements, a promising relationship has been established between data integration and machine learning, offering greater accuracy in results and cost reduction. This evolution creates opportunities for comparative analysis of the performance of different machine learning algorithms applied to data matching. This study aims to evaluate the algorithms most cited in the literature over the last ten years for the task of data matching, selecting Neural Network (Multi-layer Perceptron Classifier), Support Vector Machine (Support Vector Classifier) and Random Forest (Random Forest Classifier) based on a Narrative Review. Since there is no widely adopted dataset in this context, data from Public Procurement Processes and Invoices were used, provided by the CÉOS Project – a research initiative in collaboration with and funded by the Ministério Público de Santa Catarina (MPSC). The applied methodology involved the study and exploration of the problem, the construction of the dataset, and testing the algorithms in data matching, with replication in a company database to assess the consistency of the results in a different context. Automations were implemented for feature selection and hyperparameter optimization, while Accuracy, Precision, Recall, F1-Score, and Confusion Matrix metrics were used for performance analysis. The results showed that Random Forest and Neural Networks achieved the best performances in both datasets, with Neural Networks leading in Accuracy, Recall, and F1-Score in the second experiment, but Random Forest achieving the best Precision in both experiments and establishing itself as the most efficient algorithm in this study, followed by Neural Networks and, lastly, Support Vector Machine. The study also provides the developed code, enabling the extension of the analysis to other datasets. This research opens paths for future studies, including the analysis of algorithm performance concerning variable types, the evaluation of different feature selection methods and their impact on performance, and the investigation of more robust criteria based on metric combinations. Another direction would be to expand the set of analyzed algorithms to assess their effectiveness on different data matching datasets. |
Description: | TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação. |
URI: | https://repositorio.ufsc.br/handle/123456789/262254 |
Date: | 2024-12-13 |
Files | Size | Format | View | Description |
---|---|---|---|---|
Beatriz_Valio_W ... onclusão_de_Curso_UFSC.pdf | 8.169Mb |
View/ |
Monografia |