Title: | Aprimorando a análise visual detalhada de nuvens por LLMs multimodais através da integração de segmentação semântica como ferramenta externa |
Author: | Cerentini, Allan |
Abstract: |
A análise visual de nuvens, essencial para a meteorologia e energia solar, é uma tarefa complexa. Modelos de Aprendizado Profundo (Deep Learning) usados para a segmentação de nuvens frequentemente apresentam inconsistências, como o \"vazamento de segmentação\". Esta tese inicialmente desenvolveu um método híbrido para mitigar essas falhas. O foco da pesquisa, contudo, evoluiu para avaliar o desempenho de Modelos de Linguagem Grandes com suporte a visão. Constatou-se que, embora sejam competentes em tarefas gerais, esses modelos falham em análises que exigem detalhe espacial e quantitativo, sendo especialmente ineficazes na detecção de nuvens com baixa cobertura visual. A contribuição central do trabalho foi demonstrar que o desempenho desses modelos de linguagem pode ser drasticamente aprimorado ao receberem informações de uma ferramenta externa de segmentação. Experimentos comprovaram que fornecer dados sobre a classe, posição e cobertura das nuvens, mesmo que imperfeitos, aumenta significativamente a precisão e reduz erros. Com o uso de dados de segmentação ideais (ground truth), os modelos atingiram um desempenho quase perfeito. Conclui-se, portanto, que a sinergia entre modelos de linguagem com suporte a visão e ferramentas externas especializadas é uma estratégia poderosa para análises científicas complexas, sendo a qualidade da ferramenta externa o principal fator limitante para o sucesso. Abstract: Visual cloud analysis, essential for meteorology and solar energy, is a complex task. Deep Learning models used for cloud segmentation often exhibit inconsistencies, such as \"segmentation leakage.\" This thesis initially developed a hybrid method to mitigate these flaws. However, the research focus shifted to evaluating the performance of Large Language Models with vision support. It was found that while competent in general tasks, these models fail in analyses requiring spatial and quantitative detail, proving especially ineffective at detecting clouds with low visual coverage. The core contribution of this work was to demonstrate that the performance of these language models can be drastically improved by feeding them information from an external segmentation tool. Experiments proved that providing data on the class, position, and coverage of clouds?even if imperfect?significantly increases accuracy and reduces errors. Using ideal (ground truth) segmentation data, the models achieved near-perfect performance. Therefore, it is concluded that the synergy between vision-enabled Large Language Models and specialized external tools is a powerful strategy for complex scientific analyses, with the quality of the external tool being the main limiting factor for success. |
Description: | Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025. |
URI: | https://repositorio.ufsc.br/handle/123456789/267564 |
Date: | 2025 |
Files | Size | Format | View |
---|---|---|---|
PGCC1310-T.pdf | 18.17Mb |
View/ |