Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras
Show simple item record
| dc.contributor |
Universidade Federal de Santa Catarina. |
pt_BR |
| dc.contributor.advisor |
Castro, Márcio Bastos |
|
| dc.contributor.author |
Vargas, Rafael Luis Sol Veit |
|
| dc.date.accessioned |
2025-12-09T00:42:38Z |
|
| dc.date.available |
2025-12-09T00:42:38Z |
|
| dc.date.issued |
2025-12-05 |
|
| dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/270647 |
|
| dc.description |
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação. |
pt_BR |
| dc.description.abstract |
A Computação em Nuvem consolidou-se como uma solução eficiente e de baixo custo
frente aos clusters tradicionais, especialmente com a introdução das Instâncias Efêmeras, conhecidas como instâncias Spot, que podem proporcionar economias de até 90%
no aluguel de infraestrutura. Contudo, a volatilidade dessas instâncias - que podem ser
revogadas a qualquer momento pelo provedor - impõe desafios críticos para aplicações
de Computação de Alto Desempenho (HPC), que exigem alta disponibilidade e baixa
latência. A migração de aplicações HPC legadas para a nuvem também é dificultada
pela abstração de hardware e pela necessidade de migração do paradigma do códigofonte. Estudos recentes indicam que abordagens tradicionais de tolerância a falhas, como
o uso de checkpoints externos à aplicação, como o Distributed MultiThreaded CheckPointing (DMTCP) ou Berkeley Lab Checkpoint/Restart (BLCR), podem ser ineficientes e
gerar custos elevados em cenários com alta taxa de falhas. Como alternativa, a extensão User-Level Failure Mitigation (ULFM) do padrão Message Passing Interface (MPI)
apresenta-se como uma solução eficiente, permitindo a recuperação dinâmica e adaptativa da aplicação sem a necessidade de aguardar indefinidamente a disponibilização de
uma nova instância. Este trabalho propõe a adaptação do benchmark Lattice Boltzmann
Method (LBM) da suíte SPEChpc® 2021 para incorporar a extensão ULFM, avaliando
sua viabilidade técnica e econômica em ambientes de nuvem baseados em instâncias Spot.
Os experimentos foram conduzidos na plataforma Amazon Web Services (AWS), comparando o tempo de execução da aplicação em diferentes versões de tolerância a falhas em
instâncias do tipo On-Demand da AWS.
Os resultados demonstram que o uso de instâncias Spot é viável para aplicações HPC,
permitindo até 32% de economia mesmo com aumento de 42% no tempo de execução.
A abordagem adaptativa, baseada em ULFM e checkpoints em disco, mostrou-se a mais
eficaz ao anular o sobrecusto em execuções longas, viabilizando o uso de recursos efêmeros
sem comprometer a continuidade da simulação. |
pt_BR |
| dc.format.extent |
140 |
pt_BR |
| dc.language.iso |
por |
pt_BR |
| dc.publisher |
Florianópolis, SC. |
pt_BR |
| dc.rights |
Open Access. |
|
| dc.subject |
Computação em Nuvem. HPC. Instâncias Spot. MPI. ULFM. Lattice Boltzmann. |
pt_BR |
| dc.title |
Análise de Viabilidade de Aplicações HPC na Nuvem: Implementação de tolerância a falhas no método Lattice Boltzmann para execução resiliente em instâncias efêmeras |
pt_BR |
| dc.type |
TCCgrad |
pt_BR |
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar