Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras
Show full item record
|
Title:
|
Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras |
|
Author:
|
Vargas, Rafael Luis Sol Veit
|
|
Abstract:
|
A Computação em Nuvem consolidou-se como uma solução eficiente e de baixo custo
frente aos clusters tradicionais, especialmente com a introdução das Instâncias Efêmeras, conhecidas como instâncias Spot, que podem proporcionar economias de até 90%
no aluguel de infraestrutura. Contudo, a volatilidade dessas instâncias - que podem ser
revogadas a qualquer momento pelo provedor - impõe desafios críticos para aplicações
de Computação de Alto Desempenho (HPC), que exigem alta disponibilidade e baixa
latência. A migração de aplicações HPC legadas para a nuvem também é dificultada
pela abstração de hardware e pela necessidade de migração do paradigma do códigofonte. Estudos recentes indicam que abordagens tradicionais de tolerância a falhas, como
o uso de checkpoints externos à aplicação, como o Distributed MultiThreaded CheckPointing (DMTCP) ou Berkeley Lab Checkpoint/Restart (BLCR), podem ser ineficientes e
gerar custos elevados em cenários com alta taxa de falhas. Como alternativa, a extensão User-Level Failure Mitigation (ULFM) do padrão Message Passing Interface (MPI)
apresenta-se como uma solução eficiente, permitindo a recuperação dinâmica e adaptativa da aplicação sem a necessidade de aguardar indefinidamente a disponibilização de
uma nova instância. Este trabalho propõe a adaptação do benchmark Lattice Boltzmann
Method (LBM) da suíte SPEChpc® 2021 para incorporar a extensão ULFM, avaliando
sua viabilidade técnica e econômica em ambientes de nuvem baseados em instâncias Spot.
Os experimentos foram conduzidos na plataforma Amazon Web Services (AWS), comparando o tempo de execução da aplicação em diferentes versões de tolerância a falhas em
instâncias do tipo On-Demand da AWS.
Os resultados demonstram que o uso de instâncias Spot é viável para aplicações HPC,
permitindo até 32% de economia mesmo com aumento de 42% no tempo de execução.
A abordagem adaptativa, baseada em ULFM e checkpoints em disco, mostrou-se a mais
eficaz ao anular o sobrecusto em execuções longas, viabilizando o uso de recursos efêmeros
sem comprometer a continuidade da simulação. |
|
Description:
|
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação. |
|
URI:
|
https://repositorio.ufsc.br/handle/123456789/270647
|
|
Date:
|
2025-12-05 |
Files in this item
This item appears in the following Collection(s)
Show full item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar