Title: | Comparison of machine learning binary classifiers for detection of gear defects |
Author: | Sikora, Maria Vitoria |
Abstract: |
O monitoramento de condição baseado em vibração destaca-se como uma abordagem de manutenção preditiva devido à sua resposta rápida e relação custo-benefício. Consequentemente, a necessidade de modelos robustos capazes de distinguir entre sinais de vibração saudáveis e defeituosos é de extrema importância. Neste trabalho, avaliamos a eficácia de vários classificadores para diagnosticar estados de saúde de engrenagens usando features de sinais de vibração. Duas configurações de caixa de engrenagens são consideradas: uma conectada ao eixo do motor por meio de um sistema de correias e polias e outra diretamente ligada ao eixo do motor. Várias rotações e cargas são estudadas. Um acelerômetro triaxial é posicionado no mancal de rolamento do pinhão e outro no mancal de rolamento da engrenagem. A extração de features dos sinais de aceleração abrange features estatísticas no domínio do tempo, amplitudes das harmônicas da frequência de engrenamento (GMF) e bandas laterais associadas nos domínios de frequência e ordem, e amplitude das quefrências associadas às bandas laterais da GMF por meio da análise de Cepstrum, além de outras features como o FM0, ou o pico espectral e cepstral. Essas features servem como entradas para diferentes classificadores de aprendizado de máquina: Logistic Regression, SVM, Random Forest Classifier e XGBoost. A otimização de hiperparâmetros é feita usando um algoritmo de busca aleatória com a Área Sob a Curva ROC (AUC) como parâmetro de otimização. Três diferentes divisões de treino-teste são feitas: (A) uma aleatória, (B) treinamento com dados do sistema de correias e polias e teste com o sistema diretamente ligado ao motor, e (C) treinamento com o sistema diretamente ligado ao motor e teste com o de correias e polias. Os modelos são comparados pelo seu valor de validação AUC, duração do treinamento em segundos, acurácia e acurácia balanceada e valor de AUC de teste. No geral, o XGBoost apresentou os melhores resultados. Na divisão aleatória, alcançou 90% de TPR com 7% de FPR. Isso implica que modelos de árvore podem ser suficientes para descrever o problema, não sendo necessários modelos mais complexos, como redes neurais. Foi realizada uma análise SHAP (SHapley Additive exPlanations) para todas as divisões do XGBoost. Features que mostraram algum aspecto da forma do sinal se demonstraram mais importantes na análise SHAP. Isso pode ser devido à natureza dos defeitos analisados, que geram sinais periódicos de impacto. O FM0 também apareceu como muito importante em todas as divisões. Features com informações semelhantes apareceram como importantes tanto pelo método de Welch quanto pelo FFT no domínio da frequência. Análises adicionais implicam que elas não são necessárias para a tarefa de classificação, para os defeitos analisados. Investigações mostraram que, embora os modelos treinados com a divisão (B) falhassem mais na classificação do sinal saudável, eles apresentaram desempenho similar ao classificador treinado com a divisão (A) para a detecção de defeitos. O classificador treinado com o conjunto de dados (C) teve o maior número de falsos negativos, ou seja, classificou sinais como saudáveis quando na verdade eram de um pinhão defeituoso. Isso sugere que o conjunto de dados de polia-correia é melhor para generalizar o domínio do que a divisão de acionamento direto. Abstract: Vibration-based monitoring stands out as a predictive maintenance approach in view of its rapid response and cost-effectiveness. Consequently, the need for robust models capable of distinguishing between healthy and defective vibrational signals is of the utmost importance. In this study, we assess the efficacy of various classifiers for diagnosing gear health states using vibration signal features. Two gearbox configurations are considered: one connected to the motor shaft via a pulley belt system and the other directly linked to the motor shaft. Various rotations and loads are studied. One triaxial accelerometer is positioned at the pinion?s bearing housing and another at the gear?s bearing housing. Feature extraction from the acceleration signals encompasses statistical features in the time-domain, amplitudes of the Gear Meshing Frequency (GMF) harmonics and associated sidebands in the frequency and order-domain, and amplitude of quefrencies associated with GMF sidebands through Cepstrum analysis, and other features such as the FM0, or the spectral and cepstral peak. These features serve as inputs for different machine learning classifiers: Logistic Regression, SVM, Random Forest Classifier and XGBoost. Hyperparameter tuning is done using a randomized search with the Area Under the ROC Curve (AUC) as the optimization parameter. Three different divisions of train-test are made: (A) randomized one, (B) training with data from the pulley-belt system and testing with the direct-driven system and (C) training with the direct driven system and testing with the pulley-belt one. The models are compared by their validation AUC score, training duration, test accuracy, balanced accuracy and AUC score. Overall XGBoost had the best results. At the random division, it achieved 90% TPR at 7% FPR. It implies that tree models can be sufficient to describe the problem, not requiring more complex models, such as neural networks. A SHAP (SHapley Additive exPlanations) analysis was conducted for all divisions of XGBoost. Features that showed some shape aspect of the signal were more important in the SHAP analysis. This may be due to the nature of the analyzed defects, which results in periodic impact signals. The FM0 also appeared as very important in all divisions. Features with similar information appeared as important both from Welch and FFT?s method at the frequency-domain. Further analysis implies that they are not necessary for the classification task given the analysed defects. Additional investigation showed that although the models trained with the (B) division failed more at the healthy signal classification, they had similar performance as the classifier trained with the (A) division for defect detection. The classifier trained with the (C) dataset had the highest number of false negatives, or classified signals as healthy when they were actually from a defective pinion. This suggests that the pulley-belt dataset is better at generalizing the domain than the direct-driven division. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Mecânica, Florianópolis, 2024. |
URI: | https://repositorio.ufsc.br/handle/123456789/262846 |
Date: | 2024 |
Files | Size | Format | View |
---|---|---|---|
PEMC2364-D.pdf | 13.13Mb |
View/ |