Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation

DSpace Repository

A- A A+

Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation

Show full item record

Title: Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation
Author: Sousa, Luana da Silva
Abstract: Uma das formas de tornar possível o acesso e recuperação da grande quantidade de informação sendo produzida nos últimos anos é com ferramentas para melhor entender o conteúdo de documentos de texto. O algoritmo de Topic Modeling é amplamente usado para esse tipo de problema, pois tem a capacidade de sumarizar e categorizar documentos de texto. Devido ao fato de ser um método estatístico e baseado em dados, ele pode produzir tópicos que nem sempre são interpretáveis (coerentes). Este trabalho é baseado na hipótese de que, dado que o LDA leva em consideração o número de ocorrências de palavras, é possível afetar a qualidade dos tópicos por meio de uma normalização semântica do texto, na qual os conceitos poderiam ser representados pela mesma palavra. Podemos encontrar uma descrição formal de conceitos usando uma base de conhecimento (da Web Semântica) ou conhecimento de domínio sobre um determinado tema, extraindo diversas formas de expressar um determinado conceito, a fim de normalizar o corpus. Foi usada a métrica de coerência dos tópicos para quantificar a influência da normalização semântica, dado que essa métrica representa a interpretabilidade semântica dos termos usados para descrever um tópico. Foram testadas duas hipóteses: (i) bases de conhecimento da web semântica para normalizar dois corpora de teste genéricos de forma automática, e (ii) conhecimento de domínio para efetuar a normalização em um corpus específico, a fim de aceitar ou rejeitar a hipótese de que a normalização afeta ou não a coerência dos tópicos extraída. Uma amostragem aleatória com um número variável de documentos (dependendo do corpus) foi selecionada para aplicar o teste estatístico de Mann-Whitney com a métrica Cv. Os resultados mostraram que a normalização semântica de corpus afeta, de forma positiva com significância estatística, a coerência dos tópicos extraídos via algoritmo LDA de Topic Modeling em um corpus de domínio específico, caso haja um percentual minimamente considerável de texto normalizado. É possível concluir também que as bases de conhecimento da Web Semântica ainda são incipientes para este tipo de aplicação.Abstract: One of the ways to make it possible to access and retrieve the large amount of information being produced in recent years is with tools to better understand the content of text documents. The Topic Modeling algorithm is widely used for this type of problem as it has the ability to summarize and categorize text documents. Due to the fact that it is a statistical and data-based method, it can produce topics that are not always interpretable (coherent). This work is based on the hypothesis that, given that the LDA takes into account the number of occurrences of words, it is possible to affect the quality of topics through a semantic normalization of the text, in which the concepts could be represented by the same word. We can find a formal description of concepts using a knowledge base (from Semantic Web) or domain knowledge on a given topic, extracting different ways of expressing a given concept in order to normalize the corpus. The topic coherence metric was used to quantify the influence of semantic normalization, since this metric represents the semantic interpretability of the terms used to describe a topic. Two hypotheses were tested: (i) semantic web knowledge bases to automatically normalize two generic test corpora, and (ii) domain knowledge to perform normalization on a specific corpus, in order to accept or reject the hypothesis that normalization affects or not the coherence of the extracted topics. A random sample with a variable number of documents (depending on the corpus) was selected to apply the Mann-Whitney statistical test with the metric Cv. The results showed that semantic corpus normalization positively affects the coherence of topics extracted via the LDA algorithm of Topic Modeling in a domain-specific corpus, if there is a minimally considerable percentage of normalized text. It is also possible to conclude that the Semantic Web knowledge bases are still incipient for this type of application.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa de Pós-Graduação em Ciência da Informação, Florianópolis, 2022.
URI: https://repositorio.ufsc.br/handle/123456789/234658
Date: 2022


Files in this item

Files Size Format View
PCIN0294-D.pdf 15.83Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar