| Title: | Arquitetura Modular para Agente Conversacional de Ensino de Inglês |
| Author: | Rosa, Lucas Ferreira da |
| Abstract: |
A baixa proficiência em língua inglesa no cenário brasileiro demanda novas abordagens tecnológicas que promovam a prática oral autônoma. Este trabalho apresenta o desenvolvimento e a validação de uma arquitetura modular para um Agente Conversacional voltado ao ensino de inglês assistido por computador, projetado especificamente para falantes nativos de português. O objetivo principal consiste na integração de sistemas de Reconhecimento Automático de Fala, algoritmos de Treinamento de Pronúncia Assistido por Computador, Modelos de Linguagem de Larga Escala e Síntese de Fala para fornecer realimentação pedagógica em tempo real. A metodologia envolveu a constituição de um corpus de avaliação inédito, composto por segmentos de fala controlada e espontânea de brasileiros. Realizaram-se experimentos de benchmarking com modelos de estado da arte, resultando na seleção do Whisper Large v3 Turbo como motor de transcrição devido ao seu equilíbrio entre acurácia (WER/CER) e latência. O módulo de avaliação de pronúncia, implementado via Wav2Vec 2.0 e alinhamento forçado para cálculo da métrica Goodness of Pronunciation, identificou padrões de erro característicos do falante brasileiro, sobretudo em vogais complexas e ditongos. Para o gerenciamento do diálogo, utilizou-se o modelo Llama 3.2 com ajuste de persona, o qual demonstrou, através de testes de similaridade de cosseno, resiliência semântica frente a erros fonéticos de transcrição. A devolutiva sonora foi operacionalizada pelo modelo Kokoro, validado por métricas de preferência humana. Os resultados obtidos confirmam a viabilidade técnica da arquitetura proposta, evidenciando que a orquestração desses componentes permite a criação de um tutor virtual capaz de mitigar a ansiedade linguística e auxiliar no aprimoramento da fluência e pronúncia. The low proficiency in English within the Brazilian context demands new technological approaches that promote autonomous oral practice. This work presents the development and validation of a modular architecture for a Conversational Agent aimed at ComputerAssisted Language Learning, designed specifically for native Portuguese speakers. The main objective consists of integrating Automatic Speech Recognition systems, ComputerAssisted Pronunciation Training algorithms, Large Language Models, and Text-to-Speech to provide real-time pedagogical feedback. The methodology involved the creation of a novel evaluation corpus, composed of controlled and spontaneous speech segments from Brazilians. Benchmarking experiments were conducted with state-of-the-art models, resulting in the selection of Whisper Large v3 Turbo as the transcription engine due to its balance between accuracy (WER/CER) and latency. The pronunciation assessment module, implemented via Wav2Vec 2.0 and forced alignment for the calculation of the Goodness of Pronunciation metric, identified error patterns characteristic of Brazilian speakers, especially in complex vowels and diphthongs. For dialogue management, the Llama 3.2 model with persona tuning was used, which demonstrated, through cosine similarity tests, semantic resilience against phonetic transcription errors. The audio feedback was operationalized by the Kokoro model, validated by human preference metrics. The results obtained confirm the technical feasibility of the proposed architecture, evidencing that the orchestration of these components allows for the creation of a virtual tutor capable of mitigating linguistic anxiety and assisting in the improvement of fluency and pronunciation. |
| Description: | TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia Elétrica. |
| URI: | https://repositorio.ufsc.br/handle/123456789/272583 |
| Date: | 2026-03-04 |
| Files | Size | Format | View |
|---|---|---|---|
| TCC_LucasDaRosa.pdf | 2.081Mb |
View/ |