Title: | Desenvolvimento de um sistema de aquisição de áudio via ESP32 para classificação de cenas acústicas |
Author: | Vieira, João Paulo |
Abstract: |
Este trabalho de conclusão de curso descreve o desenvolvimento de um sistema embarcado para aquisição e transmissão de áudio, com o objetivo de classificar cenas acústicas utilizando um modelo de aprendizado profundo. O sistema utiliza a ESP32 como microcontrolador, microfones digitais MEMS para capturar áudio e um cartão SD para armazenamento. Os arquivos de áudio gravados são transmitidos para um servidor web via WiFi e, posteriormente, classificados por uma aplicação em Python que interage com o modelo de aprendizado profundo SED-LINSE, treinado com a arquitetura PaSST (Patchout Fast Spectrogram Transformer). O trabalho detalha o desenvolvimento do sistema, incluindo a configuração dos componentes, a omplementação dos protocolos de comunicação e a criação das aplicações web para gerenciamento de dados e classificação. Os resultados demonstraram o bom funcionamento do sistema em testes práticos, com a ESP32 registrando cada etapa por meio de logs na porta serial. A qualidade do áudio gravado foi considerada boa, com taxa de amostragem de 16 kHz e espectrogramas mostrando continuidade nos dados. O trabalho destaca os desafios de integrar aprendizado de máquina em sistemas embarcados com recursos limitados de memória e processamento. A transmissão de dados via WiFi, combinada com o processamento na nuvem, surge como uma solução eficiente para superar essas limitações, permitindo maior flexibilidade e capacidade de processamento sem sobrecarregar o hardware local. This final project describes the development of an embedded system for audio acquisition and transmission, with the goal of classifying acoustic scenes using a deep learning model. The system utilizes the ESP32 as the microcontroller, digital MEMS microphones to capture audio, and an SD card for storage. The recorded audio files are transmitted to a web server via Wi-Fi and subsequently classified by a Python application that interacts with the SED-LINSE deep learning model, trained with the PaSST (Patchout Fast Spectrogram Transformer) architecture. The project details the system’s development, including the configuration of components, implementation of communication protocols, and the creation of web applications for data management and classification. The results demonstrated the system’s proper functioning during practical tests, with the ESP32 logging each step via the serial port. The audio quality was considered good, with a sampling rate of 16 kHz, and spectrograms showed continuity in the data. The project highlights the challenges of integrating machine learning in embedded systems with limited memory and processing resources. The use of Wi-Fi data transmission, combined with cloud processing, emerges as an efficient solution to overcome these limitations, allowing greater flexibility and processing capacity without overloading the local hardware. |
Description: | TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia Eletrônica. |
URI: | https://repositorio.ufsc.br/handle/123456789/260789 |
Date: | 2024-10-15 |
Files | Size | Format | View | Description |
---|---|---|---|---|
TCC_João_Paulo_Vieira_final.pdf | 2.419Mb |
View/ |
TCC |