Detecção de fraudes em licitações públicas: uma abordagem semissupervisionada de agrupamento com Modelos de Mistura Gaussiana

DSpace Repository

A- A A+

Detecção de fraudes em licitações públicas: uma abordagem semissupervisionada de agrupamento com Modelos de Mistura Gaussiana

Show full item record

Title: Detecção de fraudes em licitações públicas: uma abordagem semissupervisionada de agrupamento com Modelos de Mistura Gaussiana
Author: Schmitz, Fernando Augusto
Abstract: A corrupção e a manipulação em processos licitatórios prejudicam significativamente a competitividade e elevam os custos dos produtos e serviços adquiridos pelo setor público, comprometendo a transparência e a eficiência nas aquisições governamentais. A detecção de fraudes nesses processos é particularmente desafiadora devido à escassez de dados rotulados (casos confirmados de fraude), à natureza dinâmica e heterogênea das irregularidades, bem como à alta dimensionalidade das informações envolvidas. Entretanto, os avanços proporcionados pela era do big data e pelo aprendizado de máquina abriram novas possibilidades para análises mais amplas e automatizadas, permitindo a identificação de padrões suspeitos em grandes volumes de dados públicos. Esta dissertação propõe uma metodologia semissupervisionada baseada em agrupamento utilizando Modelos de Mistura Gaussiana (GMM) para a detecção de licitações potencialmente fraudulentas. O método desenvolvido avalia a similaridade entre licitações não rotuladas e casos confirmados de fraude em múltiplos subespaços de variáveis, resultando em um indicador de risco que combina medidas de proximidade com fraudes conhecidas, quantidade de subespaços nos quais uma licitação foi considerada como suspeita, e desempenho que o modelo teve em reagrupar fraudes em cada subespaço. O experimento empírico utilizou um conjunto de dados contendo 986.516 cotações de licitações públicas realizadas entre 2009 e 2024, posteriormente segmentado em quatro subconjuntos específicos: Motoniveladoras, Tratores de Esteira, Escavadeiras e Rolos Compactadores. Um total de 92 fraudes previamente conhecidas foram usadas para rotular parcialmente esses subconjuntos e guiar o processo de aprendizagem. As variáveis analisadas incluíram preço unitário, número de participantes e duração dos processos. Com base no indicador de risco proposto, construiu-se um ranking para identificar as licitações mais suspeitas, permitindo avaliar a capacidade de priorização dos métodos investigados. Para a validação do método foi aplicada a técnica de validação cruzada Leave-One-Fraud-Out (LOFO), com o objetivo de mensurar a eficácia do modelo na identificação e priorização de casos fraudulentos inéditos. Os resultados obtidos indicaram que a metodologia proposta apresentou medianas mais elevadas para o indicador de risco (0,83?0,91) e o menor rank global médio (4,5), superando sete técnicas comparativas, incluindo a metodologia DevNet (17,5) e um baseline baseado em ranking simples (203,5). Esses resultados evidenciam o potencial da abordagem em priorizar auditorias em processos licitatórios. Sugere-se como continuidade deste trabalho a exploração de técnicas avançadas para seleção de subespaços relevantes, calibragem otimizada dos pesos do indicador de risco e a validação da metodologia em outros domínios de conhecimento e diferentes contextos de aquisições públicas.Abstract: Corruption and manipulation in procurement processes significantly harm competitiveness and increase the costs of goods and services acquired by the public sector, undermining transparency and efficiency in governmental acquisitions. Detecting fraud in these processes is particularly challenging due to the scarcity of labeled data (confirmed fraud cases), the dynamic and heterogeneous nature of irregularities, as well as the high dimensionality of the involved data. However, advancements provided by the big data era and machine learning have opened new possibilities for broader and automated analyses, enabling the identification of suspicious patterns within large volumes of public data. This dissertation proposes a semi-supervised clustering methodology utilizing Gaussian Mixture Models (GMM) to detect potentially fraudulent tenders. The developed method assesses the similarity between unlabeled tenders and confirmed fraud cases across multiple variable subspaces, resulting in a risk indicator that combines measures of proximity to known frauds, the number of subspaces in which a tender was flagged as suspicious, and the model?s performance in regrouping fraud cases within each subspace. The empirical experiment employed a dataset containing 986,516 price quotations from public tenders conducted between 2009 and 2024, subsequently segmented into four specific subsets: Motor graders, Crawler Tractors, Excavators, and Road Rollers. A total of 92 previously identified frauds were used to partially label these subsets and guide the learning process. The variables analyzed included unit price, number of participants, and duration of the processes. Based on the proposed risk indicator, a ranking was constructed to identify the most suspicious tenders, allowing for the evaluation of the prioritization capabilities of the investigated methods. To validate the method, the Leave-One-Fraud-Out (LOFO) cross-validation technique was applied, aiming to measure the effectiveness of the model in identifying and prioritizing previously unseen fraudulent cases. The obtained results indicated that the proposed methodology achieved higher median risk indicator values (0.83?0.91) and the lowest overall average rank (4.5), surpassing seven comparative techniques, including the DevNet methodology (17.5) and a simple ranking-based baseline (203.5). These results highlight the approach?s potential for prioritizing audits in procurement processes. Future research directions suggested include exploring advanced techniques for relevant subspace selection, optimized calibration of risk indicator weights, and validation of the methodology in other knowledge domains and different public procurement contexts.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
URI: https://repositorio.ufsc.br/handle/123456789/267575
Date: 2025


Files in this item

Files Size Format View
PGCC1311-D.pdf 11.87Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar