Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal
Show simple item record
dc.contributor |
Universidade Federal de Santa Catarina |
pt_BR |
dc.contributor.advisor |
Silva, Danilo |
|
dc.contributor.author |
Cin, Vinicius |
|
dc.date.accessioned |
2023-12-18T18:34:41Z |
|
dc.date.available |
2023-12-18T18:34:41Z |
|
dc.date.issued |
2023-12-08 |
|
dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/253436 |
|
dc.description |
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia Eletrônica. |
pt_BR |
dc.description.abstract |
Este trabalho apresenta uma comparação entre diferentes arquiteturas de redes neurais
profundas para a tarefa de classificação de imagens de moda. A utilização de modelos
pré-treinados no ImageNet é prática comum ao treinar-se um modelo para classificação de
imagens. Em um trabalho recente, (RADFORD et al., 2021) demonstra em seu estudo que
modelos de classificação pré-treinados com o método CLIP (Contrastive Language-Image
Pre-training), performam significativamente melhor do que outros modelos, atingindo o
estado da arte em 21 de 27 diferentes conjuntos de dados. O objetivo deste trabalho é
avaliar a acurácia de modelos pré-treinados com o método CLIP, que utiliza aprendizado
contrastivo a partir de imagens e textos, e compará-los com modelos pré-treinados no
conjunto de dados ImageNet. Para a comparação, utiliza-se um subconjunto pré-processado
das imagens do conjunto de dados Deep Fashion, contendo aproximadamente 80 mil
imagens de 16 classes de roupas. O modelo pré-treinado com o método CLIP obteve a maior
acurácia, com uma diferença de 3.00 pontos percentuais em relação ao melhor modelo
pré-treinado no ImageNet, demonstrando a vantagem do pré-treinamento contrastivo
multimodal para a classificação de imagens de moda. |
pt_BR |
dc.description.abstract |
This work presents a comparison between different deep neural network architectures
for the fashion image classification task. The use of pre-trained models on ImageNet
is a common practice when training a model for image classification. In a recent work,
(RADFORD et al., 2021) demonstrates in his study that classification models pre-trained
with the CLIP method (Contrastive Language-Image Pre-training), perform significantly
better than other models, reaching the state of art in 21 of 27 different datasets. The
objective of this work is to evaluate the accuracy of models pre-trained with the CLIP
method, which uses contrastive learning from images and texts, and compare them with
models pre-trained on the ImageNet dataset. For comparison, a pre-processed subset of
images from the Deep Fashion dataset is used, containing approximately 80 thousand
images from 16 clothing classes. The model pre-trained with the CLIP method achieved
the highest accuracy, with a difference of 3.00 percentage points in relation to the best
pre-trained model on ImageNet, demonstrating the advantage of multimodal contrastive
pre-training for classifying fashion images. |
pt_BR |
dc.format.extent |
67 f. |
pt_BR |
dc.language.iso |
pt_BR |
pt_BR |
dc.publisher |
Florianópolis, SC. |
pt_BR |
dc.rights |
Open Access. |
en |
dc.subject |
Visão computacional |
pt_BR |
dc.subject |
Classificação |
pt_BR |
dc.subject |
CLIP |
pt_BR |
dc.title |
Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal |
pt_BR |
dc.type |
TCCgrad |
pt_BR |
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar