Title: | Reconhecimento e análise temporal de ações em ambiente industrial: uma abordagem de fusão multimodal com Vision Transformer. |
Author: | Tateishi, Vitor Kojima |
Abstract: |
Este trabalho apresenta o desenvolvimento de um sistema para o reconhecimento e localização temporal de ações humanas em linhas de montagem industriais. O objetivo principal consistiu em identificar os limites de início e fim de ações complexas, explorando a fusão de informações visuais RGB com features derivadas de segmentação. Para superar o desafio de aquisição de dados, foi proposta e validada uma pipeline de autoanotação que reduziu o tempo de preparação do dataset em 72,5%. Inicialmente, a investigação confirmou a baixa robustez de modelos de estimativa de pose em cenários com luvas e oclusões, motivando a transição para uma abordagem baseada em featuresde segmentação (área normalizada, centroide). O modelo principal proposto, denominado MIAT (Multimodal Industrial Action Transformer), integra uma rede MobileNet para extração de features visuais RGB com um Transformer Encoder para modelagem sequencial. As features de ambas as modalidades são fundidas para que o modelo aprenda dependências temporais em uma representação enriquecida. O MIAT incorpora uma cabeça de saída dupla para classificação e regressão direta dos limites da ação. O sistema foi treinado com uma função de perda combinada e otimizado com Precisão Mista Automática (AMP), com a inferência realizada por janelas deslizantes. Os resultados experimentais validam a eficácia da abordagem de fusão, com o modelo MIAT alcançando um mAP@0.75 de 87,8%, uma melhoria de 16,7% sobre a abordagem unimodal. Tais resultados demonstrama viabilidade de se utilizar arquiteturas baseadas em Transformers e fusão multimodal para a análise precisa de ações em cenários industriais. This work presents the development of a system for human action recognition and temporal localization in industrial assembly lines. The main objective was to identify the start and end boundaries of complex actions by exploring the fusion of visual RGB in formation with features derived from segmentation. To overcome the data acquisition challenge, an auto-annotation pipeline was proposed and validated, reducing dataset preparation time by 72.5%. Initially, the investigation confirmed the low robustness of pose estimation models in scenarios with gloves and occlusions, motivating the transition to an approach based on segmentation features (normalized area, centroid). The proposed main model, named MIAT (Multimodal Industrial Action Transformer), integrates a MobileNet network for RGB visual feature extraction with a Transformer Encoder for sequential modeling. Features from both modalities are fused, allowing the model to learn temporal dependencies in an enriched representation. MIAT incorporates a dual-output head for direct action classification and boundary regression. The system was trained with a combined loss function and optimized with Automatic Mixed Precision (AMP), with inference performed using sliding windows. Experimental results validate the effectiveness of the fusion approach, with the MIAT model achieving an mAP@0.75 of 87.8%, a 16.7% improvement over the unimodal approach. These results demonstrate the feasibility of using Transformer-based architectures and multimodal fusion for the precise analysis of actions in industrial scenarios. |
Description: | TCC (graduação) - Universidade Federal de Santa Catarina, Campus Blumenau, Engenharia de Controle e Automação. |
URI: | https://repositorio.ufsc.br/handle/123456789/266643 |
Date: | 2025-07-11 |
Files | Size | Format | View | Description |
---|---|---|---|---|
TCC.pdf | 37.05Mb |
View/ |
TCC |