Title: | Mineração de padrões morfo-semânticos em textos clínicos |
Author: | Cardoso, Nathan Cezar |
Abstract: |
Atualmente, enormes volumes de textos de diversos domínios (microblogs, notícias, artigos, prontuários médicos, etc.) têm sido coletados diariamente em plataformas digitais. Várias fer- ramentas para Processamento de Linguagem Natural (PLN), mineração de textos e ciência de dados permitem extrair informação, analisar e classificar certos textos conforme os seus conteú- dos. Recentemente, técnicas de embedding de texto, principalmente embeddings contextualiza- dos, têm possibilitado ganhos de desempenho em diversas tarefas de Processamento de Lingua- gem Natural (PLN). Nosso grupo de pesquisa tem investigado a aplicação de tais recursos na mineração de padrões morfo-semânticos em textos, visando extração e análise de informação. Tais padrões têm se mostrado úteis em tarefas como análise de discurso, desambiguação do sentido de palavras e classificação de textos, usando métodos não-supervisionados, que dispen- sam grandes volumes de dados rotulados para treinamento, possibilitam certa explicabilidade e flexibilidade, por exemplo no detalhamento de categorias de classificação. Este trabalho desen- volveu e avaliou métodos e algoritmos baseados em PLN e embeddings contextualizados para minerar eficientemente padrões morfo-semânticos em textos clínicos (inseridos por profissio- nais de saúde, como médicos, nos prontuários de pacientes em atendimentos), com o intuito de automatizar a classificação e a triagem desses textos e possibilitar análises de seus conteúdos com métodos inovadores. Os textos clínicos e exemplos dos padrões a serem minerados foram fornecidos por uma empresa que presta serviços a operadoras de planos de saúde, com interme- diação de um mestrando a ela ligado. Foram gerados embeddings do BERT pré-treinados para a língua portuguesa (BERTimbau), assim como classes morfossintáticas e reconhecimento de entidades (e.g., medicamentos, doenças, especialidades médicas) de acordo com terminologia específica da área médica para calcular similaridade e/ou determinar casamento na mineração dos padrões nos documentos. Os embeddings gerados foram utilizados em experimentos de visualização e agrupamento a fim de selecionar conjuntos de dados ao redor das entidades re- conhecidas mencionadas nos textos clínicos. Com o uso dos algoritmos desenvolvidos e as visualizações geradas foi possível concluir que o modelo do BERT utilizado usa o contexto dos documentos para gerar os embeddings dos medicamentos próximos aos embeddings de outras palavras mencionadas nos mesmos contextos textuais, tais como doenças tratadas com os res- pectivos medicamentos. Isso não permite discriminar medicamentos e doenças, por exemplo, em grupos distintos de embeddings. Currently, huge volumes of texts from different domains (microblogs, news, articles, medical records, etc.) have been collected daily on digital platforms. Various tools for Natural Language Processing (NLP), text mining, and data science allow extracting information and analyzing and classifying certain texts according to their contents. Recently, text embedding techniques, mainly contextualized embeddings, have enabled performance gains in several NLP tasks. Our research group has investigated the application of such resources in the mining of morpho- semantic patterns in texts, aiming at extracting and analyzing information. Such patterns are useful in tasks such as discourse analysis, disambiguation of the meaning of words, and clas- sification of texts, using unsupervised methods, which do not require large volumes of labeled data for training, allowing some explainability, and flexibility, for example in detailing classi- fication categories. This work aims to develop and evaluate methods based on contextualized NLP and embeddings to efficiently mine morpho-semantic patterns in clinical texts (inserted by health professionals, such as doctors, in the records of patients in attendance), intending to automate the classification and sorting of these texts and enable an analysis of their contents with innovative methods. The clinical texts and examples of the standards to be mined have been provided by a company that provides services to health plan operators, with the interme- diation of a master’s student linked to it. It is intended to use pre-trained BERT embeddings for the Portuguese language, as well as morphosyntactic classes and entity recognition (e.g., drugs, diseases, medical specialties) according to specific medical terminology to calculate similarity and/or determine matching by mining the patterns in the documents. The generated embed- dings were used in visualization and clustering experiments in order to select datasets around recognized entities mentioned in clinical texts. With the use of the developed algorithms and the generated visualizations, it was possible to conclude that the BERT model used uses the context of the documents to generate the embeddings of the drugs close to the embeddings of other words mentioned in the same textual contexts, such as diseases treated with the respective drugs . This does not allow discriminating drugs and diseases, for example, in distinct groups of embeddings. |
Description: | TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação. |
URI: | https://repositorio.ufsc.br/handle/123456789/243398 |
Date: | 2022-12-14 |
Files | Size | Format | View | Description |
---|---|---|---|---|
TCC.pdf | 3.010Mb |
View/ |
TCC |