Abstract:
|
Este trabalho avalia o desempenho de três grandes modelos de linguagem — GPT-4, Gemini e Copilot — na resolução de questões de ensino médio. Foram selecionadas 8 perguntas, cada uma de uma disciplina diferente, elaboradas pelos professores do Cursi- nho Projeto Educação Solidária (PES) da UFSC, campus Araranguá. Cada pergunta foi submetida, com o mesmo prompt, separadamente, a cada um dos três modelos, gerando, ao todo, 24 respostas iniciais. Em seguida, os próprios professores corrigiram e avaliaram essas respostas. Com isso, foi possível quantificar o número de erros cometidos por cada modelo. As 24 respostas foram então apresentadas aos estudantes do cursinho PES. Para cada pergunta, os alunos escolheram, entre as três respostas, aquela que consideraram mais adequada. No total, 80 estudantes avaliaram de 4 a 8 questões, e indicaram qual acharam mais adequada. Os alunos preferiram as respostas do modelo Gemini, enquanto os professores preferiram as respostas do GPT-4, e o modelo que mais apresentou erro foi o Gemini. Por fim, também é construída uma proposição de arquitetura de aplica- ção baseada em LLMs open source, adequada para implementação dessa tecnologia em instituições de ensino. |