Extração de dados a partir de publicações do Diário Oficial dos Municípios de Santa Catarina usando large language models

DSpace Repository

A- A A+

Extração de dados a partir de publicações do Diário Oficial dos Municípios de Santa Catarina usando large language models

Show full item record

Title: Extração de dados a partir de publicações do Diário Oficial dos Municípios de Santa Catarina usando large language models
Author: Nascimento, Felipe Valentin
Abstract: A extração de dados estruturados a partir de documentos é fundamental para viabilizar seu uso em sistemas computacionais, análises automatizadas e políticas públicas baseadas em evidências. No caso do Diário Oficial dos Municípios de Santa Catarina (DOM/SC), embora as publicações sejam parcialmente estruturadas em formato JSON, um dos campos contém um texto extenso em linguagem natural, que concentra a maioria das informações relevantes. Diante desse cenário, este trabalho investiga o uso de Large Language Models (LLMs) para extrair automaticamente dados estruturados de documentos de publicações do Diário Oficial dos Municípios de Santa Catarina (DOM/SC) referentes a Licitações Públicas. O foco recai sobre um subconjunto de publicações estratificadas, já que o DOM/SC contempla tanto a divulgação completa quanto a parcial de atos administrativos. Após uma exploração inicial dos dados, que contam com mais de 110 mil publicações filtradas por categoria e tamanho, foi criado um conjunto de dados ouro de 100 documentos que serviu de base para a validação dos experimentos. Foram anotadas 11 variáveis, sendo 6 obrigatórias e 5 opcionais. O fluxo experimental integra pré-processamento, construção de prompts, uso opcional de Retrieval-Augmented Generation (RAG) e validação automática por JSON Schema. O prompt final foi avaliado com quatro modelos abertos de última geração (Llama 3.3-70B, Qwen 2.5-72B, DeepSeek R1-Llama-70B e Gemma 3-27B). Os resultados mostram que a combinação de few-shot com saídas estruturadas, recurso dos provedores de LLM que força a resposta em JSON válido segundo um esquema definido, reduziu a taxa de erros de formatação a zero, alcançando um F1-score médio de 89,2% calculado como a média aritmética dos F1-scores dos 11 campos avaliados, com os valores por campo variando de 81% a 100%. Os diferentes modelos apresentaram métricas semelhantes, com o melhor desempenho obtido pelo llama 3.3-70B. Conclui-se que, com prompts bem elaborados, os LLMs extraem entidades de documentos de licitação de modo confiável, dispensando o uso de RAG em textos curtos, fortalecendo a transparência e a fiscalização das contratações públicas.Extracting structured data from documents is essential for their integration into computational systems, automated analyses, and evidence-based public policy. In the Diário Oficial dos Municípios de Santa Catarina (DOM/SC), although notices are partly provided in JSON, one field still contains a lengthy free-text description that holds most of the relevant information. This study investigates the use of large language models (LLMs) to automatically extract structured data from DOM/SC procurement notices. We focus on a stratified subset of publications, because the DOM/SC includes both full and partial disclosures of administrative acts.After exploring more than 110 000 publications filtered by category and size, we compiled a 100-document gold corpus to validate the experiments. Eleven variables were annotated six mandatory and five optional. The experimental pipeline comprises preprocessing, prompt construction, optional Retrieval-Augmented Generation (RAG), and automatic validation through a JSON Schema. The final prompt was tested on four state-of-the-art open models (Llama-3.3-70B, Qwen-2.5-72B, DeepSeek R1-Llama-70B, and Gemma-3-27B). Results show that combining few-shot prompting with structured outputs, a feature that forces models to return valid JSON according to a predefined schema, eliminated formatting errors and achieved an average F1-score of 89.2%, calculated as the arithmetic mean across the eleven fields (individual scores ranged from 81% to 100%). All models produced similar metrics, with Llama-3.3-70B performing best. We conclude that well-crafted prompts enable LLMs to extract entities from short procurement documents reliably, obviating RAG in this context and strengthening transparency and oversight of public contracting.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
URI: https://repositorio.ufsc.br/handle/123456789/266581
Date: 2025-07-11


Files in this item

Files Size Format View Description
TCC.pdf 7.215Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar