Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras

DSpace Repository

A- A A+

Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras

Show full item record

Title: Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras
Author: Vargas, Rafael Luis Sol Veit
Abstract: A Computação em Nuvem consolidou-se como uma solução eficiente e de baixo custo frente aos clusters tradicionais, especialmente com a introdução das Instâncias Efêmeras, conhecidas como instâncias Spot, que podem proporcionar economias de até 90% no aluguel de infraestrutura. Contudo, a volatilidade dessas instâncias - que podem ser revogadas a qualquer momento pelo provedor - impõe desafios críticos para aplicações de Computação de Alto Desempenho (HPC), que exigem alta disponibilidade e baixa latência. A migração de aplicações HPC legadas para a nuvem também é dificultada pela abstração de hardware e pela necessidade de migração do paradigma do códigofonte. Estudos recentes indicam que abordagens tradicionais de tolerância a falhas, como o uso de checkpoints externos à aplicação, como o Distributed MultiThreaded CheckPointing (DMTCP) ou Berkeley Lab Checkpoint/Restart (BLCR), podem ser ineficientes e gerar custos elevados em cenários com alta taxa de falhas. Como alternativa, a extensão User-Level Failure Mitigation (ULFM) do padrão Message Passing Interface (MPI) apresenta-se como uma solução eficiente, permitindo a recuperação dinâmica e adaptativa da aplicação sem a necessidade de aguardar indefinidamente a disponibilização de uma nova instância. Este trabalho propõe a adaptação do benchmark Lattice Boltzmann Method (LBM) da suíte SPEChpc® 2021 para incorporar a extensão ULFM, avaliando sua viabilidade técnica e econômica em ambientes de nuvem baseados em instâncias Spot. Os experimentos foram conduzidos na plataforma Amazon Web Services (AWS), comparando o tempo de execução da aplicação em diferentes versões de tolerância a falhas em instâncias do tipo On-Demand da AWS. Os resultados demonstram que o uso de instâncias Spot é viável para aplicações HPC, permitindo até 32% de economia mesmo com aumento de 42% no tempo de execução. A abordagem adaptativa, baseada em ULFM e checkpoints em disco, mostrou-se a mais eficaz ao anular o sobrecusto em execuções longas, viabilizando o uso de recursos efêmeros sem comprometer a continuidade da simulação.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
URI: https://repositorio.ufsc.br/handle/123456789/270647
Date: 2025-12-05


Files in this item

Files Size Format View Description
TCC2___Rafael_Vargas.pdf 1.529Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar