Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

Maciel, Daniel

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

DSpace Repository

A- A A+

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

Show full item record

Title:	Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
Author:	Maciel, Daniel
Abstract:	No processamento de linguagem natural modelos de aprendizado profundo treinados em grandes corpus de textos apresentam bons resultados na resolução de tarefas que envolvam o processamento de sentenças contextualizadas. Todavia, dada a dinamicidade das línguas e o constante nascimento de neologismos e novas palavras, estes modelos pré-treinados tendem a ficar rapidamente obsoletos. Isto ocorre visto que treinamentos genéricos não apresentam bons resultados em contextos específicos e são incapazes de gerar representações distribuídas para palavras novas. Neste contexto, este trabalho apresenta um método para inclusão de novas palavras no dicionário de modelos pré-treinados, bem como o ajuste fino do modelo com textos em domínio específico para ajustar representações distribuídas e embeddings de novas palavras. No desenvolvimento deste objetivo foi utilizado o modelo BERT® base, disponível na biblioteca transformers, e corpus de textos de domínio específico extraídos da base de artigos Scopus®. Considerando a necessidade de aparato computacional robusto, exigido no treinamento de modelos de processamento de linguagem natural, foram explorados os recursos da plataforma como serviço, Google Colab®. Para observar o processo de evolução da linguagem, os corpus de textos foram divididos em séries temporais e os resultados de cada série foram comparados utilizando a similaridade do cosseno. Na avaliação do método, foi utilizada a palavra voip que obteve ao final dos ajustes finos uma representação distribuída aproximada de telecommunications e signalling, que representam algumas das principais palavras com significância em relação à da palavra de estudo. Deste modo, foi possível concluir que o método proposto oferece uma maneira eficiente e acessível para adaptar modelos pré-treinados e gerar embeddings para palavras novas.
Description:	TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação.
URI:	https://repositorio.ufsc.br/handle/123456789/238267
Date:	2022-07-19

Files in this item

Files	Size	Format	View
TCC_-_Daniel_Maciel_-_Final_assinado.pdf	1.059Mb	PDF	View/Open

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

DSpace Repository

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar