Aprimorando a análise visual detalhada de nuvens por LLMs multimodais através da integração de segmentação semântica como ferramenta externa

DSpace Repository

A- A A+

Aprimorando a análise visual detalhada de nuvens por LLMs multimodais através da integração de segmentação semântica como ferramenta externa

Show simple item record

dc.contributor Universidade Federal de Santa Catarina
dc.contributor.advisor Wangenheim, Aldo v.
dc.contributor.author Cerentini, Allan
dc.date.accessioned 2025-08-20T23:30:06Z
dc.date.available 2025-08-20T23:30:06Z
dc.date.issued 2025
dc.identifier.other 393284
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/267564
dc.description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
dc.description.abstract A análise visual de nuvens, essencial para a meteorologia e energia solar, é uma tarefa complexa. Modelos de Aprendizado Profundo (Deep Learning) usados para a segmentação de nuvens frequentemente apresentam inconsistências, como o \"vazamento de segmentação\". Esta tese inicialmente desenvolveu um método híbrido para mitigar essas falhas. O foco da pesquisa, contudo, evoluiu para avaliar o desempenho de Modelos de Linguagem Grandes com suporte a visão. Constatou-se que, embora sejam competentes em tarefas gerais, esses modelos falham em análises que exigem detalhe espacial e quantitativo, sendo especialmente ineficazes na detecção de nuvens com baixa cobertura visual. A contribuição central do trabalho foi demonstrar que o desempenho desses modelos de linguagem pode ser drasticamente aprimorado ao receberem informações de uma ferramenta externa de segmentação. Experimentos comprovaram que fornecer dados sobre a classe, posição e cobertura das nuvens, mesmo que imperfeitos, aumenta significativamente a precisão e reduz erros. Com o uso de dados de segmentação ideais (ground truth), os modelos atingiram um desempenho quase perfeito. Conclui-se, portanto, que a sinergia entre modelos de linguagem com suporte a visão e ferramentas externas especializadas é uma estratégia poderosa para análises científicas complexas, sendo a qualidade da ferramenta externa o principal fator limitante para o sucesso.
dc.description.abstract Abstract: Visual cloud analysis, essential for meteorology and solar energy, is a complex task. Deep Learning models used for cloud segmentation often exhibit inconsistencies, such as \"segmentation leakage.\" This thesis initially developed a hybrid method to mitigate these flaws. However, the research focus shifted to evaluating the performance of Large Language Models with vision support. It was found that while competent in general tasks, these models fail in analyses requiring spatial and quantitative detail, proving especially ineffective at detecting clouds with low visual coverage. The core contribution of this work was to demonstrate that the performance of these language models can be drastically improved by feeding them information from an external segmentation tool. Experiments proved that providing data on the class, position, and coverage of clouds?even if imperfect?significantly increases accuracy and reduces errors. Using ideal (ground truth) segmentation data, the models achieved near-perfect performance. Therefore, it is concluded that the synergy between vision-enabled Large Language Models and specialized external tools is a powerful strategy for complex scientific analyses, with the quality of the external tool being the main limiting factor for success. en
dc.format.extent 138 p.| il., tabs.
dc.language.iso por
dc.subject.classification Computação
dc.subject.classification Aprendizado profundo (aprendizado do computador)
dc.subject.classification Aprendizado do computador
dc.subject.classification Visão por computador
dc.subject.classification Sensoriamento remoto
dc.title Aprimorando a análise visual detalhada de nuvens por LLMs multimodais através da integração de segmentação semântica como ferramenta externa
dc.type Tese (Doutorado)


Files in this item

Files Size Format View
PGCC1310-T.pdf 18.17Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar