Skip to main content
QUICK REVIEW

[论文解读] RADICAL-Pilot: Scalable Execution of Heterogeneous and Dynamic Workloads on Supercomputers.

André Merzky, Mark Santcroos|arXiv (Cornell University)|Dec 27, 2015
Distributed and Parallel Computing Systems参考文献 4被引用 27
一句话总结

RADICAL-Pilot (RP) 是一种可扩展、互操作的试点系统,旨在超级计算机上执行异构且动态关联的科学工作负载。它通过资源优化的代理组件实现试点抽象,从而在保持完全通用性的同时高效利用 HPC 资源,并在多种异构 HPC 系统上展现出强劲性能。

ABSTRACT

Traditionally high-performance computing (HPC) systems have been optimized to support mostly monolithic workloads. The workload of many important scientific applications however, is comprised of spatially and temporally heterogeneous tasks that are often dynamically inter-related. These workloads can benefit from being executed at scale on HPC resources but a tension exists between their resource utilization requirements and the capabilities of HPC system software and HPC usage policies. Pilot systems have successfully been used to address this tension. In this paper we introduce RADICAL-Pilot (RP), a scalable and interoperable pilot system that faithfully implements the Pilot abstraction. We describe its design and characterize the performance of its components, as well as its performance on multiple heterogeneous HPC systems. Specifically, we characterize RP's task execution component (the RP Agent), which is engineered for optimal resource utilization while maintaining the full generality of the Pilot abstraction.

研究动机与目标

  • 解决现代动态异构科学工作负载与为单体工作负载优化的传统 HPC 系统之间的不匹配问题。
  • 缓解复杂工作负载资源需求与 HPC 系统软件及使用策略能力之间的紧张关系。
  • 设计一种试点系统,忠实实现试点抽象,同时确保高资源利用率和可扩展性。
  • 通过标准化、可扩展的架构,实现在多样化异构 HPC 环境中的互操作性。

提出的方法

  • RP 系统采用试点抽象,将工作负载执行与底层资源管理解耦,支持动态调度和资源分配。
  • RP 代理组件经过优化,实现资源利用率最大化,可在异构 HPC 系统上以最小开销管理任务执行。
  • 系统通过支持运行时自适应和资源重新配置,实现任务间动态依赖关系。
  • 采用轻量级分布式架构,确保在不同 HPC 环境和资源管理器之间的可扩展性和互操作性。
  • 设计支持批处理和交互式执行模式,适应多样化的科学工作流。
  • 系统在多种异构 HPC 系统上进行评估,以验证其性能和通用性。

实验结果

研究问题

  • RQ1试点系统如何有效管理现代超级计算机上动态关联的异构工作负载?
  • RQ2试点系统在保持试点抽象完整通用性的同时,能在多大程度上提升资源利用率?
  • RQ3RP 代理在不同 HPC 架构中资源效率和可扩展性方面表现如何?
  • RQ4在异构 HPC 系统上部署试点抽象时,其运行时开销和性能影响如何?

主要发现

  • RP 代理通过高效管理异构 HPC 系统上的任务调度和资源分配,实现了高资源利用率。
  • RADICAL-Pilot 通过忠实实现试点抽象,成功支持复杂且动态关联的工作负载。
  • 该系统在多种异构 HPC 环境中表现出可扩展性和互操作性,实现一致的性能表现。
  • 该设计实现了低运行时开销,在不牺牲效率的前提下保持了通用性。
  • 性能表征表明,RP 能够在大规模场景下有效处理空间和时间上异构的工作负载。
  • 该系统实现了复杂科学工作负载与 HPC 资源策略之间的更好对齐,降低了执行过程中的摩擦。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。