Análise e Visualização de Trabalhos de Conclusão de Curso utilizando Processamento de Linguagem Natural: Um Método Baseado Grandes Modelos de Linguagem

DSpace Repository

A- A A+

Análise e Visualização de Trabalhos de Conclusão de Curso utilizando Processamento de Linguagem Natural: Um Método Baseado Grandes Modelos de Linguagem

Show full item record

Title: Análise e Visualização de Trabalhos de Conclusão de Curso utilizando Processamento de Linguagem Natural: Um Método Baseado Grandes Modelos de Linguagem
Author: Mattos, Luís Felipe da Silva
Abstract: A pesquisa acadêmica enfrenta desafios significativos na análise de grandes volumes de trabalhos científicos, como a coleta manual de dados e a dificuldade em extrair informações relevantes de forma eficiente. Este trabalho propõe um método que combina Processamento de Linguagem Natural (PLN) e Grandes Modelos de Linguagem (LLMs) para automatizar a análise de Trabalhos de Conclusão de Curso (TCCs). Visando otimizar a revisão de literatura e a gestão do conhecimento acadêmico. O objetivo geral é desenvolver um método e uma aplicação web interativa baseados em PLN e LLMs para análise, exploração e gestão de acervos de TCCs, permitindo a identificação de padrões, tendências e insights relevantes. O método foi aplicado a 234 TCCs, coletados por web scraping e processados em um banco de dados vetorial (Qdrant) com embeddings gerados por LLM. A técnica Retrieval-Augmented Generation (RAG) foi utilizada para garantir respostas precisas, confiaveis e contextualizadas. A aplicação desenvolvida oferece funcionalidades como visualização de dados em painéis interativos (árvore de temas, evolução anual da produção, ranking de orientadores) e busca semântica em linguagem natural. Os resultados demonstraram que a abordagem proposta reduz significativamente o tempo de análise em comparação com métodos manuais, além de aumentar a confiabilidade das informações extraídas. Conclui-se que a integração de PLN, LLMs e bancos de dados vetoriais é eficaz para análise automatizada de acervos acadêmicos, oferecendo uma ferramenta prática para pesquisadores e instituições. Como limitações, destacam-se o escopo restrito a um único curso e a indisponibilidade de alguns arquivos. Trabalhos futuros podem expandir a abordagem para outros cursos e explorar técnicas avançadas de ajuste fino de LLMs para domínios acadêmicos específicos, potencializando o impacto da ferramenta na gestão do conhecimento científico.Academic research faces significant challenges in analyzing large volumes of scientific works, such as manual data collection and the difficulty in efficiently extracting relevant information. This work proposes a method that combines Natural Language Processing (NLP) and Large Language Models (LLMs) to automate the analysis of Final Course Papers (TCCs), aiming to optimize literature review and academic knowledge management. The general objective is to develop a method and an interactive web application based on NLP and LLMs for the analysis, exploration, and management of TCC collections, allowing the identification of patterns, trends, and relevant insights. The method was applied to 234 TCCs, collected through web scraping and processed in a vector database (Qdrant) with embeddings generated by an LLM. The Retrieval-Augmented Generation (RAG) technique was used to ensure accurate, reliable, and contextualized answers. The developed application offers functionalities such as data visualization in interactive dashboards (theme tree, annual evolution of production, supervisor ranking) and semantic search in natural language. The results demonstrated that the proposed approach significantly reduces analysis time compared to manual methods, in addition to increasing the reliability of the extracted information. It is concluded that the integration of NLP, LLMs, and vector databases is effective for the automated analysis of academic collections, offering a practical tool for researchers and institutions. As limitations, the restricted scope to a single course and the unavailability of some files are highlighted. Future work may expand the approach to other courses and explore advanced techniques for fine-tuning LLMs for specific academic domains, enhancing the impact of the tool on scientific knowledge management.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Campus Araranguá, Tecnologias da Informação e Comunicação.
URI: https://repositorio.ufsc.br/handle/123456789/266858
Date: 2025-07-10


Files in this item

Files Size Format View Description
TCC_Luis_Felipe_Mattos_da_Silva.pdf 3.673Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar