Abstract:
|
Este trabalho tem como objetivo o desenvolvimento de um módulo multimodal com
capacidades de reconhecimento automático e síntese de fala, com o intuito de ser
facilmente acoplado em sistemas de processamento de linguagem natural já existentes.
De modo a escolher um sistema de reconhecimento de fala adequado, foram realizados
experimentos sobre modelos bases disponíveis, entre os modelos testados, o modelo
Whisper-Large-V3 se demonstrou o melhor para ASR português. Subsequentemente,
foi realizado uma etapa de ajuste fino sobre o modelo Whisper, melhorando sua taxa
de erros por palavra de 7,4% para 5,00%. O modelo ajustado foi então utilizado em
conjunto com o sistema de TTS Bark para criação de um módulo de interação por fala
com um modelo Llama3-Instruct. |