Mineração de padrões morfo-semânticos em textos literários com o BERT

DSpace Repository

A- A A+

Mineração de padrões morfo-semânticos em textos literários com o BERT

Show simple item record

dc.contributor Universidade Federal de Santa Catarina. pt_BR
dc.contributor.advisor Oliveira Braz Junior, Osmar
dc.contributor.author Silveira Dias, Leandro
dc.date.accessioned 2022-12-22T14:16:49Z
dc.date.available 2022-12-22T14:16:49Z
dc.date.issued 2022-12-14
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/243399
dc.description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação. pt_BR
dc.description.abstract Grande parte da informação atualmente disponível está na forma de textos, em documentos digitais como livros, artigos de jornais e revistas, páginas Web e textos em mídias sociais. O tratamento manual desses textos é frequentemente inviável, devido ao grande volume de dados, tornando-se necessário o desenvolvimento de soluções automatizadas para diversas tarefas de processamento de texto em linguagem natural. A análise semântica automatizada de discursos em torno de tópicos de interesse em documentos textuais é um problema ainda em aberto, com diversas aplicações práticas, incluindo detecção de certos tipos de discurso (e.g. discurso de ódio) e classificação não supervisionada de textos com base em similaridades e padrões semânticos dos discursos neles encontrados. Este trabalho se propõe a desenvolver novas técnicas e algoritmos para minerar padrões morfo-semânticos de discursos centrados em tópicos do interesse de especialistas de domínio. Tais tópicos podem ser mencionadas nos textos literalmente (através das palavras que os definem) ou via léxicos que tenham semântica equivalente ou muito próxima a tais tópicos. A implementação do protótipo utiliza embeddings do BERTimbau, uma versão do modelo contextualizado de linguagem BERT pré-treinada para o português brasileiro atual, como meio de determinar similaridades semânticas entre palavras, que podem indicar tópicos de interesse ou expressar a semântica dos discursos em torno de tais tópicos. Ferramentas de Processamento de Linguagem Natural (PLN) existentes também são utilizadas para realizar tarefas como segmentação de sentenças, normalização de texto (e.g., tokenização, stemming) e classificação morfossintática de palavras (Part-Of-Speech - POS-tagging). Os algoritmos sendo desenvolvidos para minerar padrões morfo-semânticos em textos se apoiam nas funcionalidades dessas ferramentas, principalmente similaridade semântica entre embeddings contextualizados de palavras e compatibilidade de PoS-tags. A proposta está sendo desenvolvida e avaliada em um estudo de caso na área de literatura brasileira, em que especialistas de domínio fornecem os textos a analisar, indicam os tópicos de interesse e auxiliam na aferição dos resultados. Os resultados serão avaliados quantitativamente, em termos da distribuição das instâncias dos padrões minerados nas coleções de documentos e, na medida das possibilidades, comparação com o desempenho humano na identificação dos padrões e classificação dos textos. pt_BR
dc.format.extent 56 pt_BR
dc.language.iso por pt_BR
dc.publisher Florianópolis, SC. pt_BR
dc.rights Open Access. en
dc.subject Padrões Morfo-semânticos em Textos pt_BR
dc.subject Processamento de Linguagem Natural (PLN) pt_BR
dc.subject Mineração de Textos pt_BR
dc.subject Embeddings pt_BR
dc.subject Textos literários pt_BR
dc.title Mineração de padrões morfo-semânticos em textos literários com o BERT pt_BR
dc.type TCCgrad pt_BR
dc.contributor.advisor-co Fileto, Renato


Files in this item

Files Size Format View Description
TCC_Leandro_S_Dias.pdf 1.977Mb PDF View/Open trabalho de conclusão de curso

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar