Title: | Um método voltado à representação de conhecimento a partir de textos acadêmicos sobre diabetes mellitus |
Author: | Wilton, Pablo Ernesto Vigneaux |
Abstract: |
O crescimento constante das publicações científicas apresenta desafios significativos na extração e organização do conhecimento gerado. Este trabalho aborda esses desafios no contexto de diabetes mellitus, explorando técnicas de Processamento de Linguagem Natural (NLP) para mineração de dados. A construção de um Grafo de Conhecimento (KG) a partir de abstracts de artigos científicos é investigada para representar as entidades nomeadas e seus relacionamentos. Este trabalho tem como objetivo estudar a extração de entidades nomeadas e seus relacionamentos a partir de abstracts de artigos científicos sobre diabetes mellitus. Utilizando técnicas e modelos de NLP, visa-se a construção de um Grafo de Conhecimento para facilitar a extração e organização do conhecimento, assim como facilitar a aplicação de técnicas que, por meio de inferências, gerem novos conhecimentos na área biomédica. Para a seleção de artigos, utilizou-se a plataforma PubMed, resultando em um total inicial de 518.432 registros, posteriormente filtrados para 361.688 registros. Abstracts foram utilizados para a análise. Inicialmente, foi realizada uma Análise Exploratória de Dados (EDA) para entender e preparar os dados. Em seguida, técnicas de NLP, como o reconhecimento de entidades nomeadas (NER) e a extração de relacionamentos entre entidades (ERE), foram aplicadas para identificar e extrair entidades e seus relacionamentos. Este processo permitiu a construção de triplas que compõem o Grafo de Conhecimento. A abordagem foi inspirada pelo Design Science Research Methodology (DSRM), que oferece uma estrutura sistemática para a criação e avaliação de artefatos na pesquisa científica. Os resultados demonstraram que o uso de modelos de Machine Learning e Deep Learning é eficaz na identificação de entidades relevantes em textos acadêmicos, permitindo a construção de um Grafo de Conhecimento robusto. O grafo resultante forneceu uma estrutura rica para análise e visualização das relações entre entidades biomédicas. No entanto, a pesquisa também identificou desafios significativos, como a necessidade de maior poder computacional e melhorias nas técnicas de pré-processamento e extração de relações. Abstract: The constant growth of scientific publications presents significant challenges in the extraction and organization of the generated knowledge. This work addresses these challenges in the context of diabetes mellitus by exploring Natural Language Processing (NLP) techniques for data mining. The construction of a Knowledge Graph (KG) from scientific article abstracts is investigated to map named entities and their relationships. The objective of this work is to study the extraction of named entities and their relationships from scientific article abstracts on diabetes mellitus. By using NLP techniques and models, the aim is to construct a Knowledge Graph to facilitate the extraction and organization of knowledge, as well as to enable the application of techniques that, through inferences, generate new knowledge in the biomedical field. For the selection of articles, the PubMed platform was used, resulting in an initial total of 518,432 records, which were subsequently filtered to 361,688 records. Abstracts were used for the analysis. Initially, Exploratory Data Analysis (EDA) was performed to understand and prepare the data. Next, NLP techniques such as Named Entity Recognition (NER) and Entity Relation Extraction (ERE) were applied to identify and extract entities and their relationships. This process allowed the construction of triples that make up the Knowledge Graph. The approach was inspired by the Design Science Research Methodology (DSRM), which provides a systematic framework for creating and evaluating artifacts in scientific research. The results demonstrated that the use of Machine Learning and Deep Learning models is effective in identifying relevant entities in academic texts, enabling the construction of a robust Knowledge Graph. The resulting graph provided a rich structure for analyzing and visualizing the relationships between biomedical entities. However, the research also identified significant challenges, such as the need for greater computational power and improvements in preprocessing and relation extraction techniques. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2024. |
URI: | https://repositorio.ufsc.br/handle/123456789/262982 |
Date: | 2024 |
Files | Size | Format | View |
---|---|---|---|
PEGC0840-D.pdf | 6.230Mb |
View/ |