Redução de ruído em radiocomunicação de alta frequência utilizando máscara tempo-frequência e estimador de razão sinal-ruído a priori

DSpace Repository

A- A A+

Redução de ruído em radiocomunicação de alta frequência utilizando máscara tempo-frequência e estimador de razão sinal-ruído a priori

Show full item record

Title: Redução de ruído em radiocomunicação de alta frequência utilizando máscara tempo-frequência e estimador de razão sinal-ruído a priori
Author: Milesi, Erik Santana
Abstract: Esta dissertação apresenta uma pesquisa sobre técnicas de mascaramento tempo-frequência aplicadas à redução de ruído em sinais de fala transmitidos por canais de radiocomunicação de alta frequência (HF, do inglês high frequency). O estudo é dividido em duas etapas principais. Na primeira etapa, análises sob condições ideais de razão sinal-ruído (SNR, do inglês signal-to-noise ratio) foram realizadas para comparar diferentes máscaras. Inicialmente, comparou-se a máscara de Wiener (WM, do inglês Wiener mask) com uma versão aprimorada que incorpora a correlação cruzada (CCWM, do inglês crosscorrelation compensated Wiener mask). Embora a CCWM tenha apresentado resultados ligeiramente superiores nas medidas objetivas de qualidade e inteligibilidade, as diferenças estatísticas em relação à WM não foram significativas, evidenciando que o aumento da complexidade computacional não se traduziu em ganhos substanciais. Em seguida, o estudo avaliou a eficácia das máscaras binária (BM, do inglês binary mask), WM e raiz quadrada de Wiener (SRW, do inglês square-root Wiener mask) na redução de ruído típico de radiocomunicação HF. Nesse cenário, a SRW destacou-se em todas as condições de SNR provavelmente devido à sua maior capacidade de preservação do envelope temporal da fala. Na segunda etapa, o foco foi na estimação da SNR a priori e na aplicação prática dessas estimativas nas máscaras tempo-frequência. Estudou-se um modelo inovador que integra o clássico algoritmo orientado à decisão (DD, do inglês decision-directed) em uma célula recorrente customizada, formando um modelo de rede neural recorrente (RNN/DD). Os resultados demonstraram que o modelo RNN/DD, treinado com a WM como variável-alvo, reduziu o erro de estimação da SNR em até 22,64 dB, resultando em uma melhoria de qualidade de 81,3% e de inteligibilidade de 70,45% em relação à fala contaminada, superando significativamente o método DD. Para fins comparativos, um modelo baseado em memória de curto e longo prazo bidirecional (BLSTM, do inglês bidirectional long short-term memory) foi também avaliado, atingindo os menores valores de erro de estimação da SNR, embora a sua elevada demanda computacional e a operação não causal limitem sua aplicabilidade em tempo real. A comparação entre o método tradicional e os baseados em aprendizado profundo revelou que esses últimos são superiores em termos de precisão na estimação da SNR, resultando em melhorias significativas nas medidas objetivas de qualidade e, sobretudo, de inteligibilidade da fala processada. Em síntese, a dissertação demonstra que a aplicação de máscaras tempo-frequência utilizando SNR a priori estimada é uma estratégia viável e promissora para a redução dos ruídos típicos em radiocomunicação HF. Essa proposta inovadora foi validada por resultados quantitativos que evidenciam ganhos expressivos, especialmente na inteligibilidade, e os métodos baseados em aprendizado profundo apresentaram avanços notáveis, mesmo diante dos desafios operacionais associados ao seu alto custo computacional.Abstract: This dissertation presents research on time-frequency masking techniques applied to noise reduction in speech signals transmitted over high-frequency (HF) radio communication channels. The study is divided into two main stages. In the first stage, analyses under ideal signal-to-noise ratio (SNR) conditions were conducted to compare different masks. Initially, the Wiener mask (WM) was compared with an enhanced version, referred to as the cross-correlation compensated Wiener mask (CCWM). Although the CCWM demonstrated slightly superior results in objective measures of quality and intelligibility, the statistical differences relative to the WM were not significant, indicating that the increased computational complexity did not translate into substantial gains. Subsequently, the study evaluated the effectiveness of the binary mask (BM), the WM, and the square-root Wiener mask (SRW) in reducing the typical noise encountered in HF radio communication. In this context, SRW stood out in all SNR conditions, likely due to its greater ability to preserve the speech temporal envelope. In the second stage, the focus was on a priori SNR estimation and the practical application of these estimates in time-frequency masks. An innovative model that integrates the classic decision-directed (DD) algorithm into a customized recurrent cell, forming a recurrent neural network model (RNN/DD), was investigated. The results demonstrated that the RNN/DD model, trained with the WM as the target variable, reduced the SNR estimation error by up to 22.64 dB, resulting in an 81.3% improvement in quality and a 70.45% improvement in intelligibility compared to noisy speech, thereby significantly outperforming the DD method. For comparative purposes, a bidirectional long short-term memory (BLSTM) model was also evaluated, achieving the lowest SNR estimation error values. However, its high computational demand and non-causal operation limit its applicability in real-time scenarios. The comparison between the traditional method and deep learning-based approaches revealed that the latter are superior in terms of SNR estimation accuracy, leading to significant improvements in objective quality and, notably, in the intelligibility of the processed speech. In summary, the dissertation demonstrates that the application of time-frequency masks using estimated a priori SNR is a viable and promising strategy for reducing the typical noise encountered in HF radio communication. This innovative approach was validated by quantitative results that evidenced substantial gains, particularly in intelligibility, with deep learning-based methods showing remarkable advancements despite the operational challenges associated with their high computational cost.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2025.
URI: https://repositorio.ufsc.br/handle/123456789/264992
Date: 2025


Files in this item

Files Size Format View
PEEL2227-D.pdf 9.161Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar