Uso de Técnicas e Ferramentas de Embedding de Conhecimento para Desambiguação de Anotações Segundo Contextos Semânticos

DSpace Repository

A- A A+

Uso de Técnicas e Ferramentas de Embedding de Conhecimento para Desambiguação de Anotações Segundo Contextos Semânticos

Show simple item record

dc.contributor Universidade Federal de Santa Catarina pt_BR
dc.contributor.advisor Oliveira, Italo Lopes
dc.contributor.author Fagundes, João Victor de Mello
dc.date.accessioned 2019-12-09T22:40:57Z
dc.date.available 2019-12-09T22:40:57Z
dc.date.issued 2019-12-20
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/202670
dc.description TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação. pt_BR
dc.description.abstract Anotações semânticas permitem associar a dados ou porções de dados não-estuturados (e.g., menções relevantes em textos) recursos com semântica bem definida em bases de conhecimento (e.g., DBpedia, Wordnet, Babelnet) que ajudam a explicar a que os dados anotados se referem. Tais anotações permitem melhor explorar os dados anotados em uma miríade de domínios e aplicações, incluindo comércio, marketing, turismo, segurança pública, entre outras. Todavia, ao tentar capturar a semântica de dados, como, por exemplo, postagens em mídias sociais, aplicações de enriquecimento semântico esbarram em problemas como o uso de gírias e regionalismos, e principalmente, a ocorrência de ambiguidade. Várias técnicas ao longo dos anos tentam desambiguar menções a entidades do mundo real em textos para efetuar anotações semânticas corretas. Este trabalho consiste em realizar um estudo do estado da arte do problema da ambiguidade de palavras, tendo como objetivo o domínio das técnicas e ferramentas disponíveis atualmente e que vêm sendo utilizadas na solução deste problema, como por exemplo os embeddings de palavras e conhecimento. A partir disso, pretende-se desambiguar as menções existentes em postagens de mídias sociais com o auxílio dos embeddings em conjunto com redes neurais. Para tal, são identificadas e selecionadas implementações existentes de embeddings. Contextos semânticos são capturados, representados e explorados nesses embeddings para a desambiguação de anotações. A abordagem proposta é avaliada na melhoria da precisão de anotações de conjuntos de tweets, como por exemplo o dataset Microposts, que fornece conjuntos de tweets anuais. pt_BR
dc.description.abstract Semantic annotations allow to link unstructured data (e.g., relevant references in documents) to resources with well-founded semantics in knowledge information bases (e.g., DBPedia, Wordnet, Babelnet, Google Knowledge Graph) that help to explain what those annotated data are referring to. Such annotations enable better exploitation of the annotated data in a myriad of domains and applications, including marketing, tourism, and public security, among many others. However, by trying to capture the semantics in data, such as social media posts, the computer may face problems, such as the common use of slangs and regionalisms in informal conversation, and mainly the occurrence of ambiguity. Many techniques over the years try to disambiguate mentions to real world entities in documents to produce correct semantic annotations. This work consists in an study of the state of the art of the word ambiguity problem, having as objective the mastery of the techniques and tools available that are being used to solve this problem, such as knowledge and word embedding. From this, it is intended to disambiguate mentions present in social media contents by using embeddings together with neural networks. For such, implementations of embeddings are identified and selected. Semantic contexts are captured, represented and explored in these embeddings for annotation disambiguation. The proposed approach is evaluated in the improvement of the precision of the annotations from a set of tweets, such as the Microposts dataset, which provide annual sets of tweets. pt_BR
dc.format.extent 71f pt_BR
dc.language.iso pt_BR pt_BR
dc.publisher Florianópolis, SC. pt_BR
dc.rights Open Access
dc.subject Anotações Semânticas pt_BR
dc.subject Desambiguação pt_BR
dc.subject Contextos Semânticos pt_BR
dc.subject Embeddings pt_BR
dc.subject Redes Neurais pt_BR
dc.subject Grafos de Conhecimento pt_BR
dc.title Uso de Técnicas e Ferramentas de Embedding de Conhecimento para Desambiguação de Anotações Segundo Contextos Semânticos pt_BR
dc.type TCCgrad pt_BR
dc.contributor.advisor-co Fileto, Renato


Files in this item

Files Size Format View Description
TCC.pdf 1.480Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar