Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal

DSpace Repository

A- A A+

Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal

Show simple item record

dc.contributor Universidade Federal de Santa Catarina pt_BR
dc.contributor.advisor Silva, Danilo
dc.contributor.author Cin, Vinicius
dc.date.accessioned 2023-12-18T18:34:41Z
dc.date.available 2023-12-18T18:34:41Z
dc.date.issued 2023-12-08
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/253436
dc.description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia Eletrônica. pt_BR
dc.description.abstract Este trabalho apresenta uma comparação entre diferentes arquiteturas de redes neurais profundas para a tarefa de classificação de imagens de moda. A utilização de modelos pré-treinados no ImageNet é prática comum ao treinar-se um modelo para classificação de imagens. Em um trabalho recente, (RADFORD et al., 2021) demonstra em seu estudo que modelos de classificação pré-treinados com o método CLIP (Contrastive Language-Image Pre-training), performam significativamente melhor do que outros modelos, atingindo o estado da arte em 21 de 27 diferentes conjuntos de dados. O objetivo deste trabalho é avaliar a acurácia de modelos pré-treinados com o método CLIP, que utiliza aprendizado contrastivo a partir de imagens e textos, e compará-los com modelos pré-treinados no conjunto de dados ImageNet. Para a comparação, utiliza-se um subconjunto pré-processado das imagens do conjunto de dados Deep Fashion, contendo aproximadamente 80 mil imagens de 16 classes de roupas. O modelo pré-treinado com o método CLIP obteve a maior acurácia, com uma diferença de 3.00 pontos percentuais em relação ao melhor modelo pré-treinado no ImageNet, demonstrando a vantagem do pré-treinamento contrastivo multimodal para a classificação de imagens de moda. pt_BR
dc.description.abstract This work presents a comparison between different deep neural network architectures for the fashion image classification task. The use of pre-trained models on ImageNet is a common practice when training a model for image classification. In a recent work, (RADFORD et al., 2021) demonstrates in his study that classification models pre-trained with the CLIP method (Contrastive Language-Image Pre-training), perform significantly better than other models, reaching the state of art in 21 of 27 different datasets. The objective of this work is to evaluate the accuracy of models pre-trained with the CLIP method, which uses contrastive learning from images and texts, and compare them with models pre-trained on the ImageNet dataset. For comparison, a pre-processed subset of images from the Deep Fashion dataset is used, containing approximately 80 thousand images from 16 clothing classes. The model pre-trained with the CLIP method achieved the highest accuracy, with a difference of 3.00 percentage points in relation to the best pre-trained model on ImageNet, demonstrating the advantage of multimodal contrastive pre-training for classifying fashion images. pt_BR
dc.format.extent 67 f. pt_BR
dc.language.iso pt_BR pt_BR
dc.publisher Florianópolis, SC. pt_BR
dc.rights Open Access. en
dc.subject Visão computacional pt_BR
dc.subject Classificação pt_BR
dc.subject CLIP pt_BR
dc.title Classificação de imagens de moda utilizando modelos de aprendizado profundo com pré-treinamento contrastivo multimodal pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View Description
TCC - Vinicius Cin - Final Revisado.pdf 18.05Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar