Arquitetura Modular para Agente Conversacional de Ensino de Inglês
Show simple item record
| dc.contributor |
Universidade Federal de Santa Catarina. |
pt_BR |
| dc.contributor.advisor |
Costa, Márcio Holsbach |
|
| dc.contributor.author |
Rosa, Lucas Ferreira da |
|
| dc.date.accessioned |
2026-03-09T15:34:57Z |
|
| dc.date.available |
2026-03-09T15:34:57Z |
|
| dc.date.issued |
2026-03-04 |
|
| dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/272583 |
|
| dc.description |
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia Elétrica. |
pt_BR |
| dc.description.abstract |
A baixa proficiência em língua inglesa no cenário brasileiro demanda novas abordagens
tecnológicas que promovam a prática oral autônoma. Este trabalho apresenta o desenvolvimento e a validação de uma arquitetura modular para um Agente Conversacional
voltado ao ensino de inglês assistido por computador, projetado especificamente para
falantes nativos de português. O objetivo principal consiste na integração de sistemas de
Reconhecimento Automático de Fala, algoritmos de Treinamento de Pronúncia Assistido
por Computador, Modelos de Linguagem de Larga Escala e Síntese de Fala para fornecer
realimentação pedagógica em tempo real. A metodologia envolveu a constituição de um
corpus de avaliação inédito, composto por segmentos de fala controlada e espontânea de
brasileiros. Realizaram-se experimentos de benchmarking com modelos de estado da arte,
resultando na seleção do Whisper Large v3 Turbo como motor de transcrição devido ao
seu equilíbrio entre acurácia (WER/CER) e latência. O módulo de avaliação de pronúncia,
implementado via Wav2Vec 2.0 e alinhamento forçado para cálculo da métrica Goodness of
Pronunciation, identificou padrões de erro característicos do falante brasileiro, sobretudo
em vogais complexas e ditongos. Para o gerenciamento do diálogo, utilizou-se o modelo
Llama 3.2 com ajuste de persona, o qual demonstrou, através de testes de similaridade de
cosseno, resiliência semântica frente a erros fonéticos de transcrição. A devolutiva sonora
foi operacionalizada pelo modelo Kokoro, validado por métricas de preferência humana. Os
resultados obtidos confirmam a viabilidade técnica da arquitetura proposta, evidenciando
que a orquestração desses componentes permite a criação de um tutor virtual capaz de
mitigar a ansiedade linguística e auxiliar no aprimoramento da fluência e pronúncia. |
pt_BR |
| dc.description.abstract |
The low proficiency in English within the Brazilian context demands new technological
approaches that promote autonomous oral practice. This work presents the development
and validation of a modular architecture for a Conversational Agent aimed at ComputerAssisted Language Learning, designed specifically for native Portuguese speakers. The
main objective consists of integrating Automatic Speech Recognition systems, ComputerAssisted Pronunciation Training algorithms, Large Language Models, and Text-to-Speech
to provide real-time pedagogical feedback. The methodology involved the creation of a
novel evaluation corpus, composed of controlled and spontaneous speech segments from
Brazilians. Benchmarking experiments were conducted with state-of-the-art models, resulting in the selection of Whisper Large v3 Turbo as the transcription engine due to
its balance between accuracy (WER/CER) and latency. The pronunciation assessment
module, implemented via Wav2Vec 2.0 and forced alignment for the calculation of the
Goodness of Pronunciation metric, identified error patterns characteristic of Brazilian
speakers, especially in complex vowels and diphthongs. For dialogue management, the
Llama 3.2 model with persona tuning was used, which demonstrated, through cosine similarity tests, semantic resilience against phonetic transcription errors. The audio feedback
was operationalized by the Kokoro model, validated by human preference metrics. The
results obtained confirm the technical feasibility of the proposed architecture, evidencing that the orchestration of these components allows for the creation of a virtual tutor
capable of mitigating linguistic anxiety and assisting in the improvement of fluency and
pronunciation. |
pt_BR |
| dc.format.extent |
66 |
pt_BR |
| dc.language.iso |
por |
pt_BR |
| dc.publisher |
Florianópolis, SC. |
pt_BR |
| dc.rights |
Open Access. |
en |
| dc.subject |
Agentes conversacionais |
pt_BR |
| dc.subject |
Reconhecimento automático de fala |
pt_BR |
| dc.subject |
Aprendizado de idiomas assistido por computador |
pt_BR |
| dc.subject |
Avaliação de pronúncia |
pt_BR |
| dc.title |
Arquitetura Modular para Agente Conversacional de Ensino de Inglês |
pt_BR |
| dc.type |
TCCgrad |
pt_BR |
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar