Title: | HPC@Cloud: a provider-agnostic toolkit to enable the execution of HPC applications on public clouds |
Author: | Pereira Filho, Vanderlei Munhoz |
Abstract: |
O advento da computação em nuvem tornou o acesso à infraestrutura de computação disponível para milhões de pesquisadores e organizações. No contexto da Computação de Alto Desempenho (High Performance Computing -- HPC), os recursos da nuvem pública emergiram como uma alternativa custo-efetiva aos clusters locais caros. No entanto, existem vários desafios e limitações na adoção dessa abordagem. Esta dissertação propõe o HPC@Cloud, um conjunto de ferramentas de software de código aberto e agnóstico a provedores que facilitam a migração, teste e execução de aplicações HPC em plataformas de nuvem pública. A ferramenta aproveita várias tecnologias de tolerância a falhas para permitir o uso de infraestrutura de nuvem efêmera e de baixo custo, comumente conhecida como instâncias ?spot? na Amazon Web Services (AWS). Além disso, possui integração com contêineres Singularity, permitindo aos usuários executar aplicações complexas em clusters virtuais de HPC de maneira portátil e reprodutível. Executamos uma diversa gama de experimentos para avaliar o desempenho e a eficiência das soluções propostas e integradas ao HPC@Cloud, incluindo um estudo de caso de migração de uma aplicação real de simulação física, o DynEMol, comparando seu desempenho na AWS e em um cluster HPC tradicional. Por fim, nossa ferramenta fornece uma abordagem baseada em dados para estimar os custos da infraestrutura de nuvem quando aplicações são realizadas. Os resultados obtidos em dois provedores de nuvem pública (AWS e Vultr) demonstraram que: (i) o HPC@Cloud pode construir clusters virtuais de HPC na nuvem de forma eficiente; (ii) as estratégias de tolerância a falhas propostas são eficazes em ajudar a reduzir custos sem incorretos em prejuízos de desempenho relevantes; (iii) nosso estudo de caso de migração do DynEMol demonstrou que o uso de uma plataforma de nuvem pública, embora menos eficiente do que o cluster tradicional, é economicamente viável; (iv) o uso de contêineres melhora a portabilidade das aplicações HPC com perda de desempenho mínima, embora com complexidade adicional de configuração e comunicação; (v) uma abordagem de previsão de custos proposta é capaz de estimar o tempo de execução das aplicações na AWS e Vultr com pequenos erros quadráticos médios, fornecendo informações úteis para tomada de decisão pelo usuário final. Abstract: The advent of cloud computing has made access to computing infrastructure available to millions of researchers and organizations. In the context of High-Performance Computing (HPC), public cloud resources have emerged as a cost-effective alternative to expensive on-premises clusters. However, there are several challenges and limitations in adopting this approach. This dissertation proposes HPC@Cloud, a multi-provider, open-source software toolkit that facilitates the migration, testing, and execution of HPC applications on public cloud platforms. The toolkit leverages various fault tolerance technologies to enable the use of inexpensive ephemeral cloud infrastructure, commonly known as ?spot? instances in Amazon Web Services (AWS). Additionally, it features integration with Singularity containers, allowing users to run complex applications on virtual HPC clusters in a portable and reproducible way. We conducted a diverse range of experiments to assess the performance and efficiency of the proposed solutions and integrations within HPC@Cloud, including a case study of migrating a real physical simulation application, DynEMol, and comparing its performance on AWS to a traditional HPC cluster. Finally, the toolkit provides a data-based approach to estimating cloud infrastructure costs when running applications. The results obtained on two public cloud providers (AWS and Vultr) show that: (i) HPC@Cloud can efficiently build virtual HPC clusters on the cloud; (ii) the proposed fault tolerance strategies proved effective in helping reduce costs without incurring relevant performance penalties; (iii) our case study migration of DynEMol demonstrated that while the use of a public cloud platform is less efficient than the traditional cluster, it is economically viable; (iv) the use of containers improves the portability of HPC applications with a minimal performance footprint, albeit with added setup and communications complexity; (v) the proposed cost prediction approach can estimate the running time of applications on AWS and Vultr with small round median square errors, providing valuable information for end-user decision-making. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023. |
URI: | https://repositorio.ufsc.br/handle/123456789/254816 |
Date: | 2023 |
Files | Size | Format | View |
---|---|---|---|
PGCC1261-D.pdf | 8.959Mb |
View/ |