Ajuste fino robusto de modelos zero-shot
Show simple item record
dc.contributor |
Universidade Federal de Santa Catarina |
pt_BR |
dc.contributor.advisor |
Silva, Danilo |
|
dc.contributor.author |
Cin, Vinicius |
|
dc.date.accessioned |
2023-09-06T16:01:06Z |
|
dc.date.available |
2023-09-06T16:01:06Z |
|
dc.date.issued |
2023-09-06 |
|
dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/250356 |
|
dc.description.abstract |
Dentro do contexto de aprendizado de máquina, visão computacional visa capacitar os computadores a interpretar e entender informações visuais, como imagens e vídeos. A classificação de imagens é uma tarefa específica dentro da visão computacional e envolve o desenvolvimento de algoritmos e modelos de aprendizado de máquina que podem analisar imagens e atribuir rótulos ou categorias a elas. Modelos zero-shot são treinados em uma base de dados geral para classificar objetos, conceitos ou categorias que nunca foram vistas durante o treinamento, podendo ser realizado ajuste fino para uma tarefa específica. No entanto, este ajuste fino vem ao custo da robustez do modelo a mudanças na distribuição dos dados, ou seja, um desempenho inferior ao modelo zero-shot na presença de mudanças na distribuição. À medida que modelos pré-treinados estão se tornando a base do aprendizado de máquina, técnicas de ajuste fino para aplicá-los em contextos específicos são cada vez mais importantes. O problema com a robustez foi recentemente levantado como um problema em aberto por vários autores. Recentemente, o artigo "Robust Fine-Tuning of Zero-Shot Models" conduziu uma investigação empírica para compreender e melhorar o ajuste fino de modelos zero-shot a partir desta perspectiva. A solução proposta pelo artigo em estudo (WiSE fine-tuning) é realizar o ajuste fino do modelo na distribuição de interesse e interpolar linearmente os pesos gerados com o modelo base usando um coeficiente alpha de interpolação. Os estudos conduzidos mostraram uma melhora na robustez no conjunto ImageNet e cinco distribuições derivadas (ImageNetV2, ImageNet-R, ImageNet Sketch, ObjectNet, e ImageNet-A). O objetivo deste trabalho é reproduzir este artigo em uma nova base de dados, aplicar o método WiSE fine-tuning e verificar se o ganho de robustez se mantém. Para isso foram utilizados três conjuntos de dados com imagens no contexto de moda (roupas), sendo um conjunto de referência (DeepFashion 1) e dois conjuntos com desvio de distribuição (imagens de lojas online e versão desenho). A metodologia consiste em avaliar o desempenho do modelo zero-shot e com ajuste fino nos conjuntos de dados. Para o treinamento do modelo zero-shot, o método CLIP é utilizado, que envolve o treinamento de um codificador de imagem e um codificador de texto para maximizar a similaridade entre os embeddings resultantes de pares correspondentes e minimizar a similaridade entre pares diferentes. Os resultados mostram que aplicar o método WiSE fine-tuning pode aumentar a robustez do modelo CLIP em relação a desvios na distribuição de dados, ao mesmo tempo em que mantém ou aumenta a acurácia na distribuição de referência. Como conclusão, observamos que o método estudado é eficaz e pode ser aplicado a outros conjuntos de dados, melhorando a robustez dos modelos zero-shot sem adicionar complexidade ao treinamento ou inferência. |
pt_BR |
dc.format.extent |
Vídeo |
pt_BR |
dc.language.iso |
pt_BR |
pt_BR |
dc.publisher |
Florianópolis, SC |
pt_BR |
dc.subject |
Classificação de imagens |
pt_BR |
dc.subject |
Modelos Zero-shot |
pt_BR |
dc.subject |
Ajuste fino robusto |
pt_BR |
dc.subject |
Robust Fine-Tuning of Zero-Shot Models |
pt_BR |
dc.subject |
Contrastive Language Image Pré-training (CLIP) |
pt_BR |
dc.title |
Ajuste fino robusto de modelos zero-shot |
pt_BR |
dc.type |
Video |
pt_BR |
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar