Uma metodologia para criação de um corpus textual adequada ao reconhecimento de entidades nomeadas em português

DSpace Repository

A- A A+

Uma metodologia para criação de um corpus textual adequada ao reconhecimento de entidades nomeadas em português

Show full item record

Title: Uma metodologia para criação de um corpus textual adequada ao reconhecimento de entidades nomeadas em português
Author: Silva, Rogerio de Aquino
Abstract: A extração de entidades nomeadas é a tarefa de recuperação de informações presentes em um texto e de classificação dessas informações em categorias predefinidas, tais como pessoas, empresas, locais, valores monetários, porcentagens e datas. Diante da grande quantidade de dados não estruturados, por exemplo, documentos de texto, postagens e e-mail, que são gerados a todo momento durante a utilização dos meios digitais, torna-se necessária a criação de ferramentas de mineração de texto que possibilitem a transformação de dados em informação. Hoje grande parte dos modelos que possuem acurácia acima de 90% no processo de extração de entidades, são criados a partir do idioma inglês. Isso ocorre, em parte, devido à quantidade de dados disponíveis para treinamento de um modelo, pois, para sua criação, é necessário que exista um conjunto de documentos que são, conhecidos como corpus, com trechos de textos que possuam as anotações das entidades contidas. Hoje, parte dos corpora públicos que existem na língua portuguesa não possuem anotações. Sendo assim, esta dissertação propõe uma metodologia para a criação de um corpus anotado em português para o reconhecimento de entidades nomeadas. O objetivo da metodologia proposta é a criação de um corpus adequadamente anotado para treinar modelos no reconhecimento de entidades nomeadas. Dessa forma, este trabalho visa aproximar a acurácia de extração de entidades nomeadas dos modelos encontrados na literatura em outros idiomas que possuem resultados próximos a 90%. Acurácia é quantidade de entidades corretas extraídas pelo modelo em relação à quantidade total de entidades existentes. Os resultados preliminares do modelo proposto neste trabalho mostram que a utilização de um conjunto de técnicas, como a limpeza e a padronização dos dados de treino e o uso de redes neurais recorrentes, permite chegar a 85,63% de acurácia. A metodologia proposta abordada os aspectos da arquitetura implementada, bem como a metodologia de testes do projeto. No projeto, são utilizados corpora contendo trechos de textos e anotações de palavras a partir notícias jornalísticas. As entidades extraídas são nomes próprios do tipo Local, Pessoa e Organização.Abstract: The extraction of named entities is the task of retrieving information present in a text and classifying it in predefined categories, such as people, companies, places, monetary values, percentages and dates. In view of the large amount of unstructured data, such as text documents, posts and e-mail, which are generated at all times during the use of digital media, it is necessary to create text mining tools that enable the transformation of data into information. Today, most of the models that have an accuracy above 90% in the entity extraction process, are the models created from the English language. This occurs, in part, due to the amount of data available for training a model, since for its creation it is necessary to have a set of documents, which are known as corpus, with excerpts of texts that have the notes of the entities contained in them. Today, part of the public corpora that exist in the Portuguese language have no notes. Therefore, this dissertation proposes a methodology for creating a corpus in Portuguese annotated for the recognition of named entities. The objective of the proposed methodology is to create a properly annotated corpus to train models in the recognition of named entities. Thus, the aim is to approach the accuracy of extracting named entities from the models found in the literature in other languages that have results close to 90%. Accuracy is the number of correct entities extracted by the model in relation to the total number of existing entities. The preliminary results of the model proposed in this work show that the use of a set of techniques, such as the cleaning and standardization of training data and the use of recurrent neural networks, is possible to reach 85.63% accuracy. The proposed methodology addressed aspects of the implemented architecture, as well as the project's testing methodology. The project uses corpus containing excerpts from texts and annotations of words from journalistic news. The extracted entities are proper names of the type Local, Person and Organization.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa de Pós-Graduação em Ciência da Informação, Florianópolis, 2021.
URI: https://repositorio.ufsc.br/handle/123456789/227145
Date: 2021


Files in this item

Files Size Format View
PCIN0269-D.pdf 26.20Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar