Title: | Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal |
Author: | Cin, Vinicius |
Abstract: |
Este trabalho apresenta uma comparação entre diferentes arquiteturas de redes neurais profundas para a tarefa de classificação de imagens de moda. A utilização de modelos pré-treinados no ImageNet é prática comum ao treinar-se um modelo para classificação de imagens. Em um trabalho recente, (RADFORD et al., 2021) demonstra em seu estudo que modelos de classificação pré-treinados com o método CLIP (Contrastive Language-Image Pre-training), performam significativamente melhor do que outros modelos, atingindo o estado da arte em 21 de 27 diferentes conjuntos de dados. O objetivo deste trabalho é avaliar a acurácia de modelos pré-treinados com o método CLIP, que utiliza aprendizado contrastivo a partir de imagens e textos, e compará-los com modelos pré-treinados no conjunto de dados ImageNet. Para a comparação, utiliza-se um subconjunto pré-processado das imagens do conjunto de dados Deep Fashion, contendo aproximadamente 80 mil imagens de 16 classes de roupas. O modelo pré-treinado com o método CLIP obteve a maior acurácia, com uma diferença de 3.00 pontos percentuais em relação ao melhor modelo pré-treinado no ImageNet, demonstrando a vantagem do pré-treinamento contrastivo multimodal para a classificação de imagens de moda. This work presents a comparison between different deep neural network architectures for the fashion image classification task. The use of pre-trained models on ImageNet is a common practice when training a model for image classification. In a recent work, (RADFORD et al., 2021) demonstrates in his study that classification models pre-trained with the CLIP method (Contrastive Language-Image Pre-training), perform significantly better than other models, reaching the state of art in 21 of 27 different datasets. The objective of this work is to evaluate the accuracy of models pre-trained with the CLIP method, which uses contrastive learning from images and texts, and compare them with models pre-trained on the ImageNet dataset. For comparison, a pre-processed subset of images from the Deep Fashion dataset is used, containing approximately 80 thousand images from 16 clothing classes. The model pre-trained with the CLIP method achieved the highest accuracy, with a difference of 3.00 percentage points in relation to the best pre-trained model on ImageNet, demonstrating the advantage of multimodal contrastive pre-training for classifying fashion images. |
Description: | TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia Eletrônica. |
URI: | https://repositorio.ufsc.br/handle/123456789/253436 |
Date: | 2023-12-08 |
Files | Size | Format | View | Description |
---|---|---|---|---|
TCC - Vinicius Cin - Final Revisado.pdf | 18.05Mb |
View/ |
TCC |