Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras

DSpace Repository

A- A A+

Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras

Show simple item record

dc.contributor Universidade Federal de Santa Catarina. pt_BR
dc.contributor.advisor Castro, Márcio Bastos
dc.contributor.author Vargas, Rafael Luis Sol Veit
dc.date.accessioned 2025-12-09T00:42:38Z
dc.date.available 2025-12-09T00:42:38Z
dc.date.issued 2025-12-05
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/270647
dc.description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação. pt_BR
dc.description.abstract A Computação em Nuvem consolidou-se como uma solução eficiente e de baixo custo frente aos clusters tradicionais, especialmente com a introdução das Instâncias Efêmeras, conhecidas como instâncias Spot, que podem proporcionar economias de até 90% no aluguel de infraestrutura. Contudo, a volatilidade dessas instâncias - que podem ser revogadas a qualquer momento pelo provedor - impõe desafios críticos para aplicações de Computação de Alto Desempenho (HPC), que exigem alta disponibilidade e baixa latência. A migração de aplicações HPC legadas para a nuvem também é dificultada pela abstração de hardware e pela necessidade de migração do paradigma do códigofonte. Estudos recentes indicam que abordagens tradicionais de tolerância a falhas, como o uso de checkpoints externos à aplicação, como o Distributed MultiThreaded CheckPointing (DMTCP) ou Berkeley Lab Checkpoint/Restart (BLCR), podem ser ineficientes e gerar custos elevados em cenários com alta taxa de falhas. Como alternativa, a extensão User-Level Failure Mitigation (ULFM) do padrão Message Passing Interface (MPI) apresenta-se como uma solução eficiente, permitindo a recuperação dinâmica e adaptativa da aplicação sem a necessidade de aguardar indefinidamente a disponibilização de uma nova instância. Este trabalho propõe a adaptação do benchmark Lattice Boltzmann Method (LBM) da suíte SPEChpc® 2021 para incorporar a extensão ULFM, avaliando sua viabilidade técnica e econômica em ambientes de nuvem baseados em instâncias Spot. Os experimentos foram conduzidos na plataforma Amazon Web Services (AWS), comparando o tempo de execução da aplicação em diferentes versões de tolerância a falhas em instâncias do tipo On-Demand da AWS. Os resultados demonstram que o uso de instâncias Spot é viável para aplicações HPC, permitindo até 32% de economia mesmo com aumento de 42% no tempo de execução. A abordagem adaptativa, baseada em ULFM e checkpoints em disco, mostrou-se a mais eficaz ao anular o sobrecusto em execuções longas, viabilizando o uso de recursos efêmeros sem comprometer a continuidade da simulação. pt_BR
dc.format.extent 140 pt_BR
dc.language.iso por pt_BR
dc.publisher Florianópolis, SC. pt_BR
dc.rights Open Access.
dc.subject Computação em Nuvem. HPC. Instâncias Spot. MPI. ULFM. Lattice Boltzmann. pt_BR
dc.title Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View Description
TCC2___Rafael_Vargas.pdf 1.529Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar