Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau

DSpace Repository

A- A A+

Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau

Show simple item record

dc.contributor Universidade Federal de Santa Catarina. pt_BR
dc.contributor.advisor Junior, Osmar de Oliveira Braz
dc.contributor.author Silva, Raphael Ramos da
dc.date.accessioned 2023-12-17T19:53:03Z
dc.date.available 2023-12-17T19:53:03Z
dc.date.issued 2023-12-12
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/253391
dc.description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação. pt_BR
dc.description.abstract Todos os anos, milhares de estudantes brasileiros se submetem à maior avaliação de ensino do país, o Exame Nacional do Ensino Médio (ENEM). O exame avalia não só a qualidade da educação básica nacional, mas também é utilizado para o ingresso em instituições de ensino superior. Além de questões de múltipla escolha abrangendo as grandes áreas do conhecimento, a prova também é composta por uma redação que deve ser redigida obedecendo o estilo dissertativo-argumentativo. A redação é avaliada em 5 competências, sendo a segunda competência a responsável por avaliar se o texto produzido se adequa ao tema proposto. O processo manual de avaliação das redações é dispendioso. O custo estimado em 2015 para cada correção de redação era de R$textit{15,88}. Nesse mesmo ano, 6,4 milhões de redações foram corrigidas. Levando isso em consideração, o presente trabalho propõe o uso de técnicas de Processamento de Linguagem Natural (PLN), incluindo modelos de linguagem baseados em aprendizado profundo, para predizer automaticamente a pontuação de cada redação na segunda competência avaliativa. Tal proposta não apenas se alinha ao que há de mais recente nas práticas de PLN voltadas ao âmbito educacional, como também busca preencher a lacuna de aplicações correlatas especificamente adaptadas para a língua portuguesa. O uso do modelo de linguagem BERT é central para nossa investigação, especificamente a variação BERTimbau, pré-treinada para a língua portuguesa do Brasil. Para atingir os objetivos, foi primeiramente feita uma análise exploratória dos dados. Posteriormente, experimentos utilizaram o BERTimbau para extrair embeddings contextualizados dos textos das redações e dos textos motivadores.A partir desses embeddings foram calculadas medidas de similaridade das redações com textos motivadores, para primeiro investigar possíveis correlações dessas medidas com as notas na competência 2. Como não foram observadas correlações significativas, posteriormente foram criados um modelo de regressão e outro de classificação, mediante fine-tuning do BERTimbau, para predizer as notas a partir dos textos das redações. Ambos os modelos foram treinados com três diferentes taxas de aprendizado e testados usando validação cruzada (k-fold cross validation). O modelo produzido para a tarefa de classificação apresenta boa capacidade de generalização a novos dados, atingindo a acurácia 81,73 e F1-score de 0,80, para a taxa de aprendizado 5e-5 com o dataset de validação. Já os resultados para o modelo de regressão sugerem baixa adaptabilidade para resolver o problema proposto tendo seu MAE superior a 120 para treinamento e validação. pt_BR
dc.description.abstract Every year, thousands of Brazilian students undergo the largest teaching assessment in the country, the Exame Nacional do Ensino Médio (ENEM), in a free translation, National Secondary Education Exam. The exam not only assesses the quality of national basic education but is also used for admission to higher education institutions. In addition to multiple-choice questions covering major areas of knowledge, the test also consists of an essay that must be written in accordance with the dissertation-argumentative style. The writing is analyzed according to 5 skills, the second skill being related to the semantic adherence of the text produced to the proposed theme. The manual process of evaluating essays is expensive. The estimated cost in 2015 for each writing correction was R$15.88. In that same year, 6.4 million of essays were corrected. Taking this into consideration, the present work proposes the use of NLP techniques, including deep learning-based language models, to automatically predict the score of each essay in the second assessment competency. This proposal not only aligns with the latest practices in NLP aimed at the educational sphere but also seeks to fill the gap in related applications specifically adapted for the Portuguese language. The use of the BERT language model is central to our investigation, specifically the BERTimbau variation, pre-trained for Brazilian Portuguese. To achieve the objectives, an exploratory data analysis was first carried out. Subsequently, experiments used BERTimbau to extract contextualized embeddings from the essay texts, themes, and texts motivating the themes. Using these embeddings, measures of similarity of essays with themes and motivating texts were calculated, to first investigate possible correlations of these measures with scores in competency 2. As no significant correlations were observed, a regression model and a classification model were subsequently created, using fine-tuning of BERTimbau, to predict grades based on the essay texts. Both models were trained with three different learning rates and tested using k-fold cross-validation. The model produced for the classification task presents good generalization capacity to new data, reaching an accuracy of 90.45 and an F1-score of 0.90, for one of the learning rates. The results of the regression model suggest low adaptability to solve the proposed problem, with its MAE greater than 120 for training and validation. pt_BR
dc.format.extent 111 f pt_BR
dc.language.iso pt_BR pt_BR
dc.publisher Florianópolis, SC. pt_BR
dc.rights Open Access. en
dc.subject Aderência de ensaios/redações a temas, redações do \ENEM, similaridade semântica, modelos contextualizados de linguagem, BERT, regressão, classificação. pt_BR
dc.title Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau pt_BR
dc.type TCCgrad pt_BR
dc.contributor.advisor-co Fileto, Renato


Files in this item

Files Size Format View Description
TCC_Raphael_Ramos_S_18102523.pdf 1.746Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar