Extração e classificação de textos-chave de artigos acadêmicos utilizando modelo de reconhecimento óptico de caracteres

DSpace Repository

A- A A+

Extração e classificação de textos-chave de artigos acadêmicos utilizando modelo de reconhecimento óptico de caracteres

Show simple item record

dc.contributor Universidade Federal de Santa Catarina. pt_BR
dc.contributor.advisor Batista, Eduardo Luiz Ortiz
dc.contributor.author Pagani, Yuri Nunes
dc.date.accessioned 2023-12-21T15:42:38Z
dc.date.available 2023-12-21T15:42:38Z
dc.date.issued 2023-12-15
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/253659
dc.description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia Eletrônica. pt_BR
dc.description.abstract O armazenamento e preservação do conteúdo de documentos escritos é muito caro para sociedade, visto a importância no acúmulo e construção de um conhecimento base para as mais diversas áreas do saber. O presente trabalho trata de apresentar um processo para realizar a extração de textos chaves de artigos científicos escaneados, ou digitalizados, através de modelos de aprendizado de máquina voltados para classificação de imagens e OCR. Para tal foi necessário realizar o processamento das imagens dos artigos, treinamento de modelo de classificação para localização dos textos-chave e extração dos textos-chave correspondentes as áreas classificadas através de modelo de OCR. Alguns resultados, como acurácia de mais de 70% para extração de textos-chave como título e resumo, demonstra que a abordagem utilizada para definir o processo como um todo é promissora. pt_BR
dc.description.abstract Storing and preserving the content of written documents is very crucial for society, given the importance of accumulating and building a comprehension base for the most diverse areas of knowledge. This work aims to present a process for extracting key texts from scanned or digitized scientific articles through machine learning models aimed at image classification and Optical Character Recognition (OCR). This process aims to facilitate the indexing of articles in order to help recognize the content covered by them. For this it was necessary to perform the processing of the images of the articles, classification model training for location of key texts and extraction of key texts corresponding to the areas classified through an OCR model. Some results, such as accuracy of more than 70% for key text extraction such as title and abstract, demonstrates that the approach used to define the process as a whole is promising. pt_BR
dc.format.extent 62 f. pt_BR
dc.language.iso por pt_BR
dc.publisher Florianópolis, SC. pt_BR
dc.rights Open Access. en
dc.subject Extração de textos pt_BR
dc.subject Classificação de textos pt_BR
dc.subject Indexação de textos pt_BR
dc.subject Aprendizado de máquina pt_BR
dc.title Extração e classificação de textos-chave de artigos acadêmicos utilizando modelo de reconhecimento óptico de caracteres pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View Description
TCC_Yuri_Pagani_assinado.pdf 10.25Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar