Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal

Cin, Vinicius

Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal

DSpace Repository

A- A A+

Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal

Show full item record

Title:	Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal
Author:	Cin, Vinicius
Abstract:	Este trabalho apresenta uma comparação entre diferentes arquiteturas de redes neurais profundas para a tarefa de classificação de imagens de moda. A utilização de modelos pré-treinados no ImageNet é prática comum ao treinar-se um modelo para classificação de imagens. Em um trabalho recente, (RADFORD et al., 2021) demonstra em seu estudo que modelos de classificação pré-treinados com o método CLIP (Contrastive Language-Image Pre-training), performam significativamente melhor do que outros modelos, atingindo o estado da arte em 21 de 27 diferentes conjuntos de dados. O objetivo deste trabalho é avaliar a acurácia de modelos pré-treinados com o método CLIP, que utiliza aprendizado contrastivo a partir de imagens e textos, e compará-los com modelos pré-treinados no conjunto de dados ImageNet. Para a comparação, utiliza-se um subconjunto pré-processado das imagens do conjunto de dados Deep Fashion, contendo aproximadamente 80 mil imagens de 16 classes de roupas. O modelo pré-treinado com o método CLIP obteve a maior acurácia, com uma diferença de 3.00 pontos percentuais em relação ao melhor modelo pré-treinado no ImageNet, demonstrando a vantagem do pré-treinamento contrastivo multimodal para a classificação de imagens de moda. This work presents a comparison between different deep neural network architectures for the fashion image classification task. The use of pre-trained models on ImageNet is a common practice when training a model for image classification. In a recent work, (RADFORD et al., 2021) demonstrates in his study that classification models pre-trained with the CLIP method (Contrastive Language-Image Pre-training), perform significantly better than other models, reaching the state of art in 21 of 27 different datasets. The objective of this work is to evaluate the accuracy of models pre-trained with the CLIP method, which uses contrastive learning from images and texts, and compare them with models pre-trained on the ImageNet dataset. For comparison, a pre-processed subset of images from the Deep Fashion dataset is used, containing approximately 80 thousand images from 16 clothing classes. The model pre-trained with the CLIP method achieved the highest accuracy, with a difference of 3.00 percentage points in relation to the best pre-trained model on ImageNet, demonstrating the advantage of multimodal contrastive pre-training for classifying fashion images.
Description:	TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia Eletrônica.
URI:	https://repositorio.ufsc.br/handle/123456789/253436
Date:	2023-12-08

Files in this item

Files	Size	Format	View	Description
TCC - Vinicius Cin - Final Revisado.pdf	18.05Mb	PDF	View/Open	TCC

Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal

DSpace Repository

Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar