Extração de dados a partir de publicações do Diário Oficial dos Municípios de Santa Catarina usando large language models

Nascimento, Felipe Valentin

Extração de dados a partir de publicações do Diário Oficial dos Municípios de Santa Catarina usando large language models

DSpace Repository

A- A A+

Extração de dados a partir de publicações do Diário Oficial dos Municípios de Santa Catarina usando large language models

Show full item record

Title:	Extração de dados a partir de publicações do Diário Oficial dos Municípios de Santa Catarina usando large language models
Author:	Nascimento, Felipe Valentin
Abstract:	A extração de dados estruturados a partir de documentos é fundamental para viabilizar seu uso em sistemas computacionais, análises automatizadas e políticas públicas baseadas em evidências. No caso do Diário Oficial dos Municípios de Santa Catarina (DOM/SC), embora as publicações sejam parcialmente estruturadas em formato JSON, um dos campos contém um texto extenso em linguagem natural, que concentra a maioria das informações relevantes. Diante desse cenário, este trabalho investiga o uso de Large Language Models (LLMs) para extrair automaticamente dados estruturados de documentos de publicações do Diário Oficial dos Municípios de Santa Catarina (DOM/SC) referentes a Licitações Públicas. O foco recai sobre um subconjunto de publicações estratificadas, já que o DOM/SC contempla tanto a divulgação completa quanto a parcial de atos administrativos. Após uma exploração inicial dos dados, que contam com mais de 110 mil publicações filtradas por categoria e tamanho, foi criado um conjunto de dados ouro de 100 documentos que serviu de base para a validação dos experimentos. Foram anotadas 11 variáveis, sendo 6 obrigatórias e 5 opcionais. O fluxo experimental integra pré-processamento, construção de prompts, uso opcional de Retrieval-Augmented Generation (RAG) e validação automática por JSON Schema. O prompt final foi avaliado com quatro modelos abertos de última geração (Llama 3.3-70B, Qwen 2.5-72B, DeepSeek R1-Llama-70B e Gemma 3-27B). Os resultados mostram que a combinação de few-shot com saídas estruturadas, recurso dos provedores de LLM que força a resposta em JSON válido segundo um esquema definido, reduziu a taxa de erros de formatação a zero, alcançando um F1-score médio de 89,2% calculado como a média aritmética dos F1-scores dos 11 campos avaliados, com os valores por campo variando de 81% a 100%. Os diferentes modelos apresentaram métricas semelhantes, com o melhor desempenho obtido pelo llama 3.3-70B. Conclui-se que, com prompts bem elaborados, os LLMs extraem entidades de documentos de licitação de modo confiável, dispensando o uso de RAG em textos curtos, fortalecendo a transparência e a fiscalização das contratações públicas. Extracting structured data from documents is essential for their integration into computational systems, automated analyses, and evidence-based public policy. In the Diário Oficial dos Municípios de Santa Catarina (DOM/SC), although notices are partly provided in JSON, one field still contains a lengthy free-text description that holds most of the relevant information. This study investigates the use of large language models (LLMs) to automatically extract structured data from DOM/SC procurement notices. We focus on a stratified subset of publications, because the DOM/SC includes both full and partial disclosures of administrative acts.After exploring more than 110 000 publications filtered by category and size, we compiled a 100-document gold corpus to validate the experiments. Eleven variables were annotated six mandatory and five optional. The experimental pipeline comprises preprocessing, prompt construction, optional Retrieval-Augmented Generation (RAG), and automatic validation through a JSON Schema. The final prompt was tested on four state-of-the-art open models (Llama-3.3-70B, Qwen-2.5-72B, DeepSeek R1-Llama-70B, and Gemma-3-27B). Results show that combining few-shot prompting with structured outputs, a feature that forces models to return valid JSON according to a predefined schema, eliminated formatting errors and achieved an average F1-score of 89.2%, calculated as the arithmetic mean across the eleven fields (individual scores ranged from 81% to 100%). All models produced similar metrics, with Llama-3.3-70B performing best. We conclude that well-crafted prompts enable LLMs to extract entities from short procurement documents reliably, obviating RAG in this context and strengthening transparency and oversight of public contracting.
Description:	TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
URI:	https://repositorio.ufsc.br/handle/123456789/266581
Date:	2025-07-11

Files in this item

Files	Size	Format	View	Description
TCC.pdf	7.215Mb	PDF	View/Open	TCC

Extração de dados a partir de publicações do Diário Oficial dos Municípios de Santa Catarina usando large language models

DSpace Repository

Extração de dados a partir de publicações do Diário Oficial dos Municípios de Santa Catarina usando large language models

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar