Extração de informação de documentos jurídicos brasileiros com retrieval-augmented generation

DSpace Repository

A- A A+

Extração de informação de documentos jurídicos brasileiros com retrieval-augmented generation

Show full item record

Title: Extração de informação de documentos jurídicos brasileiros com retrieval-augmented generation
Author: Aquino, Isabella Viviani de
Abstract: Extrair informações de dados não estruturados é um desafio que tem atraído atenção crescente ao longo do tempo devido ao crescimento exponencial dos dados digitais armazenados na sociedade moderna. Além disso, os Modelos de Linguagem de Grande Escala (LLMs) surgiram recentemente como ferramentas poderosas que se beneficiam dessa abundância de dados e têm mostrado capacidades notáveis em tarefas de Processamento de Linguagem Natural, incluindo resposta a perguntas, sumarização e extração. No entanto, esses modelos ainda enfrentam limitações em tarefas de extração, como alucinações e janelas de contexto restritas, tornando inviável alimentar documentos longos nos prompts. Diante disso, a Geração Aumentada por Recuperação (RAG) é uma abordagem inovadora que combina técnicas clássicas de recuperação e LLMs para abordar algumas dessas limitações. Este trabalho propõe um fluxo de trabalho que permite a avaliação de configurações experimentais de RAG, incluindo a exploração e avaliação de múltiplas possibilidades de parâmetros e LLMs, para extrair dados estruturados de documentos legais brasileiros relacionados a fraudes em licitações públicas, juntamente com uma interface amigável que utilizará o fluxo de trabalho em segundo plano para promover uma forma orientada ao usuário de extrair informações de documentos legais. Validamos nosso fluxo de trabalho com experimentos usando quarenta documentos legais e a extração de duas variáveis-alvo. Os melhores resultados obtidos com nosso fluxo de trabalho mostraram uma precisão média de extração de 92,5%, superando significativamente uma estratégia de expressão regular, com 58,75% de precisão média. Além disso, nossos resultados mostram que cada variável extraída pode conter uma combinação otimizada de parâmetros, destacando a dependência do contexto de cada extração e, portanto, a utilidade do fluxo de trabalho proposto. Finalmente, nosso trabalho propõe uma abordagem promissora para a extração de informações por entidades de diferentes contextos e áreas de expertise, permitindo o uso de pipelines RAG em um nível mais alto de abstração ao utilizar a interface.Extracting information from unstructured data is a challenge that has drawn increasing attention over time due to the exponential growth of stored digital data in modern society. In addition, Large Language Models (LLMs) have recently emerged as powerful tools that benefit from this abundance of data and have shown remarkable capabilities in Natural Language Processing tasks, including question answering, summarization and extraction. Nonetheless, these models still encounter limitations on extraction tasks, such as hallucinations and restricted context windows, making it unfeasible to feed long documents into prompts. Given the foregoing, Retrieval Augmented Generation (RAG) is a novel approach that combines classic retrieval techniques and LLMs to address some of these limitations. This work proposes a workflow that allows the assessment of RAG experimental setups, including the exploration and evaluation of multiple possibilities of parameters and LLMs, to extract structured data from Brazilian legal documents related to fraud in public procurements, together with a user-friendly interface that will utilize the workflow in the background to promote a user-oriented way of extracting information from legal documents. We validated our workflow with experiments using forty legal documents and the extraction of two target variables. The best results obtained with our workflow showed an average extraction accuracy of 92.5\%, significantly outperforming a regular expression strategy, with 58.75\% average accuracy. Furthermore, our results show that each extracted variable potentially holds an optimal combination of parameters, highlighting the context-dependency of each extraction and, therefore, the proposed workflow's usefulness. Finally, our work poses a promising approach on extracting information by entities from different backgrounds and expertise, allowing the usage of RAG pipelines on a higher level of abstraction when utilizing the interface.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
URI: https://repositorio.ufsc.br/handle/123456789/262519
Date: 2024-12-12


Files in this item

Files Size Format View Description
Monografia_Isabella_Aquino.pdf 2.778Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar