Extração e classificação de textos-chave de artigos acadêmicos utilizando modelo de reconhecimento óptico de caracteres

DSpace Repository

A- A A+

Extração e classificação de textos-chave de artigos acadêmicos utilizando modelo de reconhecimento óptico de caracteres

Show full item record

Title: Extração e classificação de textos-chave de artigos acadêmicos utilizando modelo de reconhecimento óptico de caracteres
Author: Pagani, Yuri Nunes
Abstract: O armazenamento e preservação do conteúdo de documentos escritos é muito caro para sociedade, visto a importância no acúmulo e construção de um conhecimento base para as mais diversas áreas do saber. O presente trabalho trata de apresentar um processo para realizar a extração de textos chaves de artigos científicos escaneados, ou digitalizados, através de modelos de aprendizado de máquina voltados para classificação de imagens e OCR. Para tal foi necessário realizar o processamento das imagens dos artigos, treinamento de modelo de classificação para localização dos textos-chave e extração dos textos-chave correspondentes as áreas classificadas através de modelo de OCR. Alguns resultados, como acurácia de mais de 70% para extração de textos-chave como título e resumo, demonstra que a abordagem utilizada para definir o processo como um todo é promissora.Storing and preserving the content of written documents is very crucial for society, given the importance of accumulating and building a comprehension base for the most diverse areas of knowledge. This work aims to present a process for extracting key texts from scanned or digitized scientific articles through machine learning models aimed at image classification and Optical Character Recognition (OCR). This process aims to facilitate the indexing of articles in order to help recognize the content covered by them. For this it was necessary to perform the processing of the images of the articles, classification model training for location of key texts and extraction of key texts corresponding to the areas classified through an OCR model. Some results, such as accuracy of more than 70% for key text extraction such as title and abstract, demonstrates that the approach used to define the process as a whole is promising.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia Eletrônica.
URI: https://repositorio.ufsc.br/handle/123456789/253659
Date: 2023-12-15


Files in this item

Files Size Format View Description
TCC_Yuri_Pagani_assinado.pdf 10.25Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar