Title: | Reconhecimento automático de cenas acústicas com técnicas de aprendizagem de máquina |
Author: | Mafra, Gustavo Sena |
Abstract: |
O relatório apresentado aqui é o resultado de um trabalho realizado entre 23 de Março de 2015 e 5 de Setembro de 2015 para a validação do estágio de final de curso, parte do curso de engenharia oferecido pela escola francesa Supélec e pelo Master Recherche (M2R) ATSI (Automatique et traitement du signal et des images), oferecido conjuntamente pela Supélec, pela Université Paris-Sud 11 e pela ENS Cachan. Posteriormente, foi reutilizado como Projeto de Fim de Curso para o curso de Engenharia de Controle e Automação na UFSC (Universidade Federal de Santa Catarina). Technicolor é uma empresa francesa, baseada em Issy-les-Moulineaux (arredores de Paris), antigamente conhecida como Thomson Inc. e Thomson Multimedia. Ela foi renomeada em 2010 para o nome de sua subsidiária americana. Os serviços/fontes de receita principais de Technicolor são serviços de entretenimento (para as indústrias do cinema e da televisão), as sua divisão Connected Home (responsável por set-top boxes, modems, dispositivos residenciais conectados) e patenteamento de tecnologias, este trabalho sendo relevante para os últimos dois. O tema do estágio foi reconhecimento automático de cenas acústicas. Isto é, usar informações acústicas (sinais de audio) para inferir sobre o contexto dessa informação. Essa é uma forma particular de classificação de áudio, onde mais genericamente uma gravação de áudio é classificada em alguns rótulos pré-definidos. Exemplos de contextos/ambientes são ônibus, escritório, rua, etc. O estágio serviu como uma revisão e ponto de entrada para pesquisa em classificação de audio na Technicolor. Um workflow completo foi implementado e uma grande variedade de métodos foram testados, com o objetivo de avaliar o potencial de diferentes features acústicas, métodos e estratégias de classificação, e abordagens gerais em aprendizagem de máquina. The report presented here is the result of a work realized between the 23 March 2015 and 04 September 2015 for the validation of the end-of-studies internship that is part of the engineering course of Supélec and for the Master Recherche (M2R) ATSI (Automatique et traitement du signal et des images) offered jointly by Supélec, Université Paris-Sud 11 and ENS Cachan. Posteriorly, it was also used as the final project of the Control and Automation Engineering course offered by UFSC (Universidade Federal de Santa Catarina). Technicolor is a French company based in Issy-les-Moulineaux and previously known as Thomson Inc. and Thomson Multimedia. It rebranded itself in 2010 after its American film subsidiary. The main services/revenues of the company are entertainement services (for the film and television industries), its Connected Home activity (set-top boxes, modems, connected devices) and technology licensing, the work presented here being relevant to the last two. The subject of the internship was Acoustic scene recognition. It consists in using acoustic information (audio signals) to infer the context of this information. It is a particular form of audio classification in which more generally an audio recording is classified in some predefined labels. Examples of such environments are bus, office, street, etc. The internship served as a review and an entry point for research in Audio Classification at Technicolor. A complete workflow was implemented and a large variety of methods was tested, hoping to evaluate the potential of different audio features, classification methods and strategies and general machine learning approaches. |
Description: | TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia de Controle e Automação. |
URI: | https://repositorio.ufsc.br/xmlui/handle/123456789/171580 |
Date: | 2016-12-15 |
Files | Size | Format | View |
---|---|---|---|
PFC_2016-1 Gustavo_Sena_Mafra.pdf | 856.4Kb |
View/ |