dc.contributor |
Universidade Federal de Santa Catarina |
|
dc.contributor.advisor |
Silva, Danilo |
|
dc.contributor.author |
Silva, Henrique Pickler da |
|
dc.date.accessioned |
2025-07-04T23:28:40Z |
|
dc.date.available |
2025-07-04T23:28:40Z |
|
dc.date.issued |
2025 |
|
dc.identifier.other |
392711 |
|
dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/265954 |
|
dc.description |
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2025. |
|
dc.description.abstract |
Ao projetar um classificador utilizando aprendizado supervisionado geralmente assume-se que os rótulos estão corretos. No entanto, o ruído nos rótulos é comum mesmo em conjuntos de dados amplamente utilizados na literatura, devido a problemas com rotulagem automática, ambiguidade dos dados ou erro humano. Esse ruído pode prejudicar o treinamento dos modelos, levando-os a memorizar padrões incorretos, o que compromete a generalização e introduz vieses na avaliação de desempenho. Embora existam diversos métodos que buscam tornar o aprendizado robusto a esse tipo de ruído, a tarefa específica de detectar rótulos ruidosos costuma ser negligenciada, com a pesquisa focando mais na acurácia da tarefa de classificação do que na eficácia da detecção. Este trabalho aborda essa lacuna com um benchmark abrangente de métodos de detecção de ruído em rótulos, com o objetivo de identificar as abordagens mais eficazes. Focamos em métodos que utilizam previsões dos modelos durante o treinamento, distinguindo entre abordagens in-sample, que coletam previsões para amostras do próprio conjunto de treinamento, e out-of-sample, que coletam previsões para amostras fora do conjunto de treinamento (por exemplo, via validação cruzada K-fold). Cada método em nosso benchmark realiza uma única rodada de detecção e, em geral, depende do treinamento de um ou mais modelos. Para garantir uma comparação justa, todos os modelos de classificação foram previamente otimizados usando um conjunto de validação que também inclui ruído nos rótulos, preservando o realismo do cenário. O desempenho de detecção é avaliado com uma nova métrica: a taxa de falsos negativos (FNR) ao selecionar um número de amostras igual à quantidade conhecida de rótulos ruidosos ? sendo que um detector ideal atingiria 0% de FNR. Nossos resultados indicam que métodos in-sample superam consistentemente os out-of-sample, sugerindo que a própria memorização pode fornecer sinais úteis para a detecção de ruído. Entre os métodos avaliados, o Area Under the Margin (AUM) (Pleiss et al., 2020) apresentou desempenho robusto. Enquanto trabalhos anteriores frequentemente agregam as perdas por amostra ao longo das épocas para explorar a trajetória da perda, avaliamos adicionalmente o temporal ensembling, agregando as probabilidades do modelo ao longo das épocas. Essa abordagem resultou em melhorias significativas de desempenho, especialmente quando combinada com o sinal de Logit Margin (LM) utilizado no AUM. Esses achados sugerem que muitos métodos de detecção podem estar se beneficiando do temporal ensembling mais do que da trajetória da perda em si, simplificando a interpretação desses métodos. Por fim, otimizamos parâmetros de detecção --- como a janela de agregação --- com um pequeno subconjunto de validação com rótulos limpos, permitindo uma avaliação direta da detecção. Os resultados trazem duas observações: (i) usar dados de múltiplas épocas superam o uso de uma única época, mesmo que esta seja otimizada; e (ii) os ganhos com otimização são limitados, indicando que métodos multi-época são robustos à escolha da janela. Isso é valioso, pois para se obter um conjunto de validação é necessário que seja feita rotulação manual, um recurso que pode ser melhor aproveitado aplicando diretamente métodos multi-época não otimizados. |
|
dc.description.abstract |
Abstract: When designing a classifier using supervised learning, accurate labels are typically assumed, yet label noise is common even in benchmark datasets due to automated labeling issues, data ambiguity or human error. This noise can hinder model training by causing models to memorize incorrect patterns, degrading generalization, and biasing performance evaluation. While numerous methods aim to make learning robust to such noise, the specific task of detecting noisy labels often is overlooked. This study addresses this gap by providing a comprehensive benchmark of label noise detection methods, aiming to identify the most effective approaches for guiding label correction efforts. We focus on methods that leverage model predictions during training, distinguishing between in-sample approaches, which collect predictions for samples in the training set, and out-of-sample approaches, which collect predictions for held-out samples (e.g, via K-fold cross-validation). Each method in our benchmark performs a single round of detection and generally relies on training one or more models. To ensure a fair comparison, all classification models were pre-optimized using a validation set with noisy labels, preserving the realism of the setting. Detection performance is evaluated using a novel metric: the false negative rate (FNR) when detecting as noisy a number of samples equal to the known quantity of noisy labels, this is the lowest budget in which perfect detection achieves 0% FNR. Our results indicate that in-sample methods consistently outperform out-of-sample ones, suggesting that memorization itself may provide useful information for noise detection. Among the evaluated methods, the Area Under the Margin (AUM)(Pleiss et al., 2020) showed strong performance. Our framework also allows decoupling the measure used for detection from the aggregation technique. While prior work often aggregates per-sample losses over epochs to exploit loss trajectories, we additionally evaluate temporal ensembling, by aggregating predicted probabilities over the epochs. This approach yielded significant performance improvements, particularly when paired with the logit margin measure used in AUM. These findings suggest that many detection methods may be benefiting from temporal ensembling rather than exploiting the loss trajectory itself. Finally, we optimize the detection parameters --- such as the aggregation window --- using a small subset containing both noisy and corrected labels for validation, enabling direct evaluation of detection performance. The results lead to two key observations. First, using data from multiple training epochs consistently outperforms relying on a single epoch, even when the optimal epoch is selected. Second, the performance gains from optimization of multi-epoch methods are fairly limited, indicating that these methods are relatively robust to the specific choice of aggregation window. |
en |
dc.format.extent |
85 p.| il., tabs. |
|
dc.language.iso |
eng |
|
dc.subject.classification |
Engenharia elétrica |
|
dc.subject.classification |
Benchmark (Computação) |
|
dc.subject.classification |
Ruído |
|
dc.title |
A comprehensive benchmark of methods for detection of noisy labels in classification datasets |
|
dc.type |
Dissertação (Mestrado) |
|