Title: | Um framework baseado em active learning e similaridade semântica para triagem de artigos em revisões sistemáticas da literatura |
Author: | Silva Júnior, Eugênio Monteiro da |
Abstract: |
Revisões sistemáticas da literatura seguem uma metodologia rigorosa organizada em etapas que, em muitos casos, requerem um esforço considerável por parte dos pesquisadores. Mais especificamente, a tarefa de selecionar os estudos primários que irão integrar a revisão é a mais repetitiva e pode demandar muitas horas de trabalho. Com o intuito de reduzir a carga de trabalho necessária para esse processo de triagem, esta tese apresenta a proposta de um framework de priorização de leitura baseado em similaridade semântica que aproveita os benefícios dos recentes avanços do processamento de linguagem natural. O framework foi elaborado como uma variação do active learning, diferenciando-se por não requerer algoritmos adicionais de machine learning para classificação. Ademais, para superar limitações encontradas em estudos correlatos, foram incorporados recursos complementares, tais como um método de ?partida a frio? (cold-start) baseado em uma frase representativa do tema e um critério de parada híbrido que envolve heurística e estatística. Com base no framework, foi implementado um protótipo de assistente e o seu desempenho foi avaliado em diversos cenários de aplicação simulados. Os resultados indicam que o protótipo garantiu a revocação necessária e proporcionou economias de carga de trabalho em certos casos. Além dos resultados práticos, esta tese contribui para o corpo teórico relacionado aos problemas de revocação total que envolvem textos, ao oferecer uma abordagem que baseada exclusivamente nas propriedades da similaridade semântica que tem potencial para ser facilmente adaptada a novos modelos de linguagem. Abstract: Systematic literature reviews follow a rigorous methodology organized into steps that, in many cases, require considerable effort from researchers. More specifically, the task of selecting the primary studies that will be included in the review is the most repetitive and can demand many hours of work. To reduce the workload required for this screening process, this thesis presents the proposal of a reading prioritization framework based on semantic similarity that leverages the benefits of recent advancements in natural language processing. The framework was developed as a variation of active learning, differing in that it does not require additional machine learning algorithms for classification. Furthermore, to overcome limitations found in related studies, complementary features were incorporated, such as a \"cold-start\" method based on a representative sentence of the topic and a hybrid stopping criterion involving heuristics and statistics. Based on the framework, a prototype assistant was implemented and its performance was evaluated in various simulated application scenarios. The results indicate that the prototype ensured the necessary recall and provided workload savings in certain cases. In addition to practical results, this thesis contributes to the theoretical body related to total recall problems involving texts, by offering an approach based solely on the properties of semantic similarity that has the potential to be easily adapted to new language models. |
Description: | Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa Pós-Graduação em Ciência da Informação, Florianópolis, 2024. |
URI: | https://repositorio.ufsc.br/handle/123456789/263790 |
Date: | 2024 |
Files | Size | Format | View |
---|---|---|---|
PCIN0373-T.pdf | 5.745Mb |
View/ |