Project |
Title | REliable power and time-Constrain-aware Predictive management of heterogeneous Exascale systems | Acronym | RECIPE |
Project ID | 801137 | Call | H2020-FETHPC-2017 |
Programme | H2020 | ||
Activity | HTPC, cloud security, multi-cloud, distributed application, heterogeneous cloud, security SLA, decision support, deployment, monitoring, enforcement, security assurance, DevOps, lifecycle management | ||
The current HPC facilities will need to grow by an order of magnitude in the next few years to reach the Exascale range. The dedicated middleware needed to manage the enormous complexity of future HPC centers, where deep heterogeneity is needed to handle the wide variety of applications within reasonable power budgets, will be one of the most critical aspects in the evolution of HPC infrastructure towards Exascale. This middleware will need to address the critical issue of reliability in face of the increasing number of resources, and therefore decreasing mean time between failures. To close this gap, RECIPE provides: a hierarchical runtime resource management infrastructure optimizing energy efficiency and ensuring reliability for both time-critical and throughput-oriented computation; a predictive reliability methodology to support the enforcing of QoS guarantees in face of both transient and long-term hardware failures, including thermal, timing and reliability models; and a set of integration layers allowing the resource manager to interact with both the application and the underlying deeply heterogeneous architecture, addressing them in a disaggregate way. Quantitative goals for RECIPE include: 25% increase in energy efficiency (performance/watt) with an 15% MTTF improvement due to proactive thermal management; energy-delay product improved up to 25%; 20% reduction of faulty executions. The project will assess its results against the following set of real world use cases, addressing key application domains ranging from well established HPC applications such as geophysical exploration and meteorology, to emerging application domains such as biomedical machine learning and data analytics. To this end, RECIPE relies on a consortium composed of four leading academic partners (POLIMI,UPV,EPFL,CeRICT); two supercomputing centers, BSC and PSNC; a research hospital, CHUV, and an SME, IBTS, which provide effective exploitation avenues through industry-based use cases. |
Finanziato nell'ambito del bando H2020 Future and Emerging Technologies (FET) High-Performance Computing (HPC) 2017, il progetto RECIPE (REliable power and time-ConstraInts-aware Predictive management of heterogeneous Exascale systems) ha puntato a sviluppare un'infrastruttura di gestione delle risorse di runtime per applicazioni critiche per tempo di risposta e tasso di servizio nei futuri sistemi Exascale. Il CeRICT ha svolto un ruolo di primo piano nella definizione della proposta e nell'attuazione del piano di ricerca, affrontando in particolare il calcolo basato su acceleratori e la disaggregazione delle risorse in ambienti datacenter/cloud. Tra gli altri risultati, il gruppo di lavoro del CeRICT ha sviluppato un'infrastruttura hardware su FPGA per la gestione della configurazione degli acceleratori utente, del monitoraggio e della comunicazione dei dati infra/internodo, corredata di una corrispondente libreria software di basso livello. Inoltre, il gruppo di lavoro del CeRICT ha esplorato l’innovativa idea di Checkpointing/Restart (C/R) su FPGA, sviluppando l'hardware di supporto ed un corrispondente flusso software, che include un controller custom per la configurazione dinamica dell’FPGA ed un driver associato. Infine, a scopo dimostrativo, il gruppo ha sviluppato un acceleratore hardware dedicato per l'esecuzione parallela di kernel di tipo stencil Jacobi, che ha mostrato di poter sfruttare a pieno le potenzialità dei dispositivi FPGA di classe HPC valutati nel progetto RECIPE, in termini di potenza di calcolo e disponibilità di memoria ad alta banda. |