Mineração de padrões morfo-semânticos em textos clínicos

Cardoso, Nathan Cezar

Mineração de padrões morfo-semânticos em textos clínicos

DSpace Repository

A- A A+

Mineração de padrões morfo-semânticos em textos clínicos

Show simple item record

dc.contributor	Universidade Federal de Santa Catarina.	pt_BR
dc.contributor.advisor	Braz Junior, Osmar de Oliveira
dc.contributor.author	Cardoso, Nathan Cezar
dc.date.accessioned	2022-12-22T14:13:45Z
dc.date.available	2022-12-22T14:13:45Z
dc.date.issued	2022-12-14
dc.identifier.uri	https://repositorio.ufsc.br/handle/123456789/243398
dc.description	TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.	pt_BR
dc.description.abstract	Atualmente, enormes volumes de textos de diversos domínios (microblogs, notícias, artigos, prontuários médicos, etc.) têm sido coletados diariamente em plataformas digitais. Várias fer- ramentas para Processamento de Linguagem Natural (PLN), mineração de textos e ciência de dados permitem extrair informação, analisar e classificar certos textos conforme os seus conteú- dos. Recentemente, técnicas de embedding de texto, principalmente embeddings contextualiza- dos, têm possibilitado ganhos de desempenho em diversas tarefas de Processamento de Lingua- gem Natural (PLN). Nosso grupo de pesquisa tem investigado a aplicação de tais recursos na mineração de padrões morfo-semânticos em textos, visando extração e análise de informação. Tais padrões têm se mostrado úteis em tarefas como análise de discurso, desambiguação do sentido de palavras e classificação de textos, usando métodos não-supervisionados, que dispen- sam grandes volumes de dados rotulados para treinamento, possibilitam certa explicabilidade e flexibilidade, por exemplo no detalhamento de categorias de classificação. Este trabalho desen- volveu e avaliou métodos e algoritmos baseados em PLN e embeddings contextualizados para minerar eficientemente padrões morfo-semânticos em textos clínicos (inseridos por profissio- nais de saúde, como médicos, nos prontuários de pacientes em atendimentos), com o intuito de automatizar a classificação e a triagem desses textos e possibilitar análises de seus conteúdos com métodos inovadores. Os textos clínicos e exemplos dos padrões a serem minerados foram fornecidos por uma empresa que presta serviços a operadoras de planos de saúde, com interme- diação de um mestrando a ela ligado. Foram gerados embeddings do BERT pré-treinados para a língua portuguesa (BERTimbau), assim como classes morfossintáticas e reconhecimento de entidades (e.g., medicamentos, doenças, especialidades médicas) de acordo com terminologia específica da área médica para calcular similaridade e/ou determinar casamento na mineração dos padrões nos documentos. Os embeddings gerados foram utilizados em experimentos de visualização e agrupamento a fim de selecionar conjuntos de dados ao redor das entidades re- conhecidas mencionadas nos textos clínicos. Com o uso dos algoritmos desenvolvidos e as visualizações geradas foi possível concluir que o modelo do BERT utilizado usa o contexto dos documentos para gerar os embeddings dos medicamentos próximos aos embeddings de outras palavras mencionadas nos mesmos contextos textuais, tais como doenças tratadas com os res- pectivos medicamentos. Isso não permite discriminar medicamentos e doenças, por exemplo, em grupos distintos de embeddings.	pt_BR
dc.description.abstract	Currently, huge volumes of texts from different domains (microblogs, news, articles, medical records, etc.) have been collected daily on digital platforms. Various tools for Natural Language Processing (NLP), text mining, and data science allow extracting information and analyzing and classifying certain texts according to their contents. Recently, text embedding techniques, mainly contextualized embeddings, have enabled performance gains in several NLP tasks. Our research group has investigated the application of such resources in the mining of morpho- semantic patterns in texts, aiming at extracting and analyzing information. Such patterns are useful in tasks such as discourse analysis, disambiguation of the meaning of words, and clas- sification of texts, using unsupervised methods, which do not require large volumes of labeled data for training, allowing some explainability, and flexibility, for example in detailing classi- fication categories. This work aims to develop and evaluate methods based on contextualized NLP and embeddings to efficiently mine morpho-semantic patterns in clinical texts (inserted by health professionals, such as doctors, in the records of patients in attendance), intending to automate the classification and sorting of these texts and enable an analysis of their contents with innovative methods. The clinical texts and examples of the standards to be mined have been provided by a company that provides services to health plan operators, with the interme- diation of a master’s student linked to it. It is intended to use pre-trained BERT embeddings for the Portuguese language, as well as morphosyntactic classes and entity recognition (e.g., drugs, diseases, medical specialties) according to specific medical terminology to calculate similarity and/or determine matching by mining the patterns in the documents. The generated embed- dings were used in visualization and clustering experiments in order to select datasets around recognized entities mentioned in clinical texts. With the use of the developed algorithms and the generated visualizations, it was possible to conclude that the BERT model used uses the context of the documents to generate the embeddings of the drugs close to the embeddings of other words mentioned in the same textual contexts, such as diseases treated with the respective drugs . This does not allow discriminating drugs and diseases, for example, in distinct groups of embeddings.	pt_BR
dc.format.extent	99 f.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.publisher	Florianópolis, SC.	pt_BR
dc.rights	Open Access.
dc.subject	Mineração de textos	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Embeddings	pt_BR
dc.subject	Reconhecimento de entidades	pt_BR
dc.subject	Textos clínicos	pt_BR
dc.title	Mineração de padrões morfo-semânticos em textos clínicos	pt_BR
dc.type	TCCgrad	pt_BR
dc.contributor.advisor-co	Fileto, Renato

Files in this item

Files	Size	Format	View	Description
TCC.pdf	3.010Mb	PDF	View/Open	TCC

Mineração de padrões morfo-semânticos em textos clínicos

DSpace Repository

Mineração de padrões morfo-semânticos em textos clínicos

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar