Dentro do contexto de aprendizado de máquina, visão computacional visa capacitar os computadores a interpretar e entender informações visuais, como imagens e vídeos. A classificação de imagens é uma tarefa específica dentro da visão computacional e envolve o desenvolvimento de algoritmos e modelos de aprendizado de máquina que podem analisar imagens e atribuir rótulos ou categorias a elas. Modelos zero-shot são treinados em uma base de dados geral para classificar objetos, conceitos ou categorias que nunca foram vistas durante o treinamento, podendo ser realizado ajuste fino para uma tarefa específica. No entanto, este ajuste fino vem ao custo da robustez do modelo a mudanças na distribuição dos dados, ou seja, um desempenho inferior ao modelo zero-shot na presença de mudanças na distribuição. À medida que modelos pré-treinados estão se tornando a base do aprendizado de máquina, técnicas de ajuste fino para aplicá-los em contextos específicos são cada vez mais importantes. O problema com a robustez foi recentemente levantado como um problema em aberto por vários autores. Recentemente, o artigo "Robust Fine-Tuning of Zero-Shot Models" conduziu uma investigação empírica para compreender e melhorar o ajuste fino de modelos zero-shot a partir desta perspectiva. A solução proposta pelo artigo em estudo (WiSE fine-tuning) é realizar o ajuste fino do modelo na distribuição de interesse e interpolar linearmente os pesos gerados com o modelo base usando um coeficiente alpha de interpolação. Os estudos conduzidos mostraram uma melhora na robustez no conjunto ImageNet e cinco distribuições derivadas (ImageNetV2, ImageNet-R, ImageNet Sketch, ObjectNet, e ImageNet-A). O objetivo deste trabalho é reproduzir este artigo em uma nova base de dados, aplicar o método WiSE fine-tuning e verificar se o ganho de robustez se mantém. Para isso foram utilizados três conjuntos de dados com imagens no contexto de moda (roupas), sendo um conjunto de referência (DeepFashion 1) e dois conjuntos com desvio de distribuição (imagens de lojas online e versão desenho). A metodologia consiste em avaliar o desempenho do modelo zero-shot e com ajuste fino nos conjuntos de dados. Para o treinamento do modelo zero-shot, o método CLIP é utilizado, que envolve o treinamento de um codificador de imagem e um codificador de texto para maximizar a similaridade entre os embeddings resultantes de pares correspondentes e minimizar a similaridade entre pares diferentes. Os resultados mostram que aplicar o método WiSE fine-tuning pode aumentar a robustez do modelo CLIP em relação a desvios na distribuição de dados, ao mesmo tempo em que mantém ou aumenta a acurácia na distribuição de referência. Como conclusão, observamos que o método estudado é eficaz e pode ser aplicado a outros conjuntos de dados, melhorando a robustez dos modelos zero-shot sem adicionar complexidade ao treinamento ou inferência.