Title: | Uma proposta de pipeline semiautomático baseado em verbalizações para extrair relacionamentos adequados entre entidades no contexto da atividade de inteligência e investigação policial de pessoas expostas politicamente |
Author: | Fonseca, Rodrigo Alves da |
Abstract: |
Este trabalho investiga a extração de relacionamentos relevantes entre entidades envolvendo Pessoas Expostas Politicamente (PEPs) a partir de fontes abertas, com o objetivo de apoiar atividades de inteligência e investigação policial. Para isso, foi proposto um pipeline semiautomático de mineração textual baseado em verbalizações destinado a extrair relacionamentos da Web no contexto das atividades mencionadas. O primeiro passo envolveu a definição de um cenário de trabalho e a investigação de tarefas de Processamento de Linguagem Natural (PLN) necessárias para o desenvolver o pipeline. A extração de relacionamentos por meio de verbalizações opera testando hipóteses por meio da utilização de um modelo pré-treinado de inferência de PLN. Nesse processo, o texto a ser analisado é tratado como uma premissa, enquanto a verbalização é considerada a hipótese a ser testada. O pipeline utiliza um corpus textual anotado manualmente, extraído da Web, por meio de pesquisas de palavras-chave predefinidas, composto por documentos específicos relacionados às PEPs. Este corpus serve de base para o desenvolvimento das verbalizações. Os resultados indicam que o método é eficaz na identificação de relacionamentos entre entidades. O uso do modelo DeBERTa da Microsoft, com um limiar de negativação estabelecido em 0,8, apresentou melhores resultados na identificação de relacionamentos em corpora textuais relacionados ao domínio proposto. Em um cenário de classificação binária, foi possível obter um F1-score de 0,865 e acurácia de 0,967. A metodologia proposta destaca a importância das verbalizações no processo de extração de relacionamentos. Verbalizações inadequadas podem comprometer a qualidade da extração, tornando essa etapa crítica. Embora a técnica não necessite de treinamento de modelo, a escolha das verbalizações é crucial: aquelas muito específicas podem causar overfitting, enquanto as excessivamente gerais podem resultar em underfitting. Portanto, é essencial criar verbalizações baseadas em documentos do domínio específico de interesse, ajustando-as por meio de testes e refinamentos sucessivos. Abstract: This work investigates the extraction of relevant relationships between entities involving Politically Exposed Persons (PEPs) from open sources, with the aim of supporting intelligence and police investigation activities. To this end, a semi-automatic textual mining pipeline based on verbalizations was proposed to extract relationships from the Web in the context of the mentioned activities. The first step involved defining a work scenario and investigating Natural Language Processing (NLP) tasks necessary to develop the pipeline. Extracting relationships through verbalizations operates by testing hypotheses through the use of a pre-trained NLP inference model. In this process, the text to be analyzed is treated as a premise, while the verbalization is considered the hypothesis to be tested. The pipeline uses a manually annotated textual corpus, extracted from the Web, through predefined keyword searches, composed of specific documents related to PEPs. This corpus serves as the basis for the development of verbalizations. The results indicate that the method is effective in identifying relationships between entities. The use of Microsoft's DeBERTa model, with a negative threshold set at 0.8, showed better results in identifying relationships in textual corpora related to the proposed domain. In a binary classification scenario, it was possible to obtain an F1-score of 0.865 and an accuracy of 0.967. The proposed methodology highlights the importance of verbalizations in the relationship extraction process. Inadequate verbalization can compromise the quality of the extraction, making this step critical. Although the technique does not require model training, the choice of verbalizations is crucial: those that are too specific can lead to overfitting, while those that are too general can result in underfitting. Therefore, it is essential to create verbalizations based on documents from the relevant domain, adjusting them through successive tests and refinements. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa de Pós-Graduação em Ciência da Informação, Florianópolis, 2024. |
URI: | https://repositorio.ufsc.br/handle/123456789/262005 |
Date: | 2024 |
Files | Size | Format | View |
---|---|---|---|
PCIN0367-D.pdf | 2.610Mb |
View/ |