Skip to main content
QUICK REVIEW

[논문 리뷰] RADICAL-Pilot: Scalable Execution of Heterogeneous and Dynamic Workloads on Supercomputers.

André Merzky, Mark Santcroos|arXiv (Cornell University)|2015. 12. 27.
Distributed and Parallel Computing Systems참고 문헌 4인용 수 27
한 줄 요약

RADICAL-Pilot (RP)는 슈퍼컴퓨터에서 이질적이고 동적으로 상호연결된 과학 워크로드를 실행하기 위해 설계된 확장 가능하고 상호운용성이 뛰어난 피LOT 시스템이다. 자원 최적화된 에이전트 컴포넌트를 통해 피LOT 추상화를 구현함으로써 고성능 계산(HPC) 자원의 효율적 이용을 가능하게 하면서도 전체 일반성을 유지하며, 다양한 이질적 HPC 시스템에서 뛰어난 성능을 입증한다.

ABSTRACT

Traditionally high-performance computing (HPC) systems have been optimized to support mostly monolithic workloads. The workload of many important scientific applications however, is comprised of spatially and temporally heterogeneous tasks that are often dynamically inter-related. These workloads can benefit from being executed at scale on HPC resources but a tension exists between their resource utilization requirements and the capabilities of HPC system software and HPC usage policies. Pilot systems have successfully been used to address this tension. In this paper we introduce RADICAL-Pilot (RP), a scalable and interoperable pilot system that faithfully implements the Pilot abstraction. We describe its design and characterize the performance of its components, as well as its performance on multiple heterogeneous HPC systems. Specifically, we characterize RP's task execution component (the RP Agent), which is engineered for optimal resource utilization while maintaining the full generality of the Pilot abstraction.

연구 동기 및 목표

  • 현대적이고 동적이며 이질적인 과학 워크로드와 단일 워크로드에 최적화된 전통적인 HPC 시스템 간의 불일치를 해결하기 위해.
  • 복잡한 워크로드의 자원 요구사항과 HPC 시스템 소프트웨어 및 사용 정책의 능력 간의 긴장을 줄이기 위해.
  • 피LOT 추상화를 충실하게 구현하면서도 높은 자원 이용률과 확장성을 보장하는 피LOT 시스템을 설계하기 위해.
  • 표준화되고 확장 가능한 아키텍처를 통해 다양한 이질적 HPC 환경 간의 상호운용성을 보장하기 위해.

제안 방법

  • RP 시스템은 워크로드 실행을 저수준 자원 관리에서 분리하는 피LOT 추상화를 사용하여 동적 스케줄링과 자원 할당을 가능하게 한다.
  • RP 에이전트 컴포넌트는 최적의 자원 이용률을 위해 설계되어 이질적 HPC 시스템 간에 최소한의 오버헤드로 작업 실행을 관리한다.
  • 런타임 적응 및 자원 재구성 기능을 통해 작업 간 동적 상호의존성을 지원한다.
  • 경량이며 분산 아키텍처를 사용하여 다양한 HPC 환경과 자원 관리자 간의 확장성과 상호운용성을 보장한다.
  • 배치 및 인터랙티브 실행 모델을 모두 지원하여 다양한 과학 워크플로우를 수용한다.
  • 성능과 일반성의 타당성을 검증하기 위해 다수의 이질적 HPC 시스템에서 시스템을 평가한다.

실험 결과

연구 질문

  • RQ1어떻게 하면 현대 슈퍼컴퓨터에서 동적으로 상호연결된 이질적 워크로드를 효과적으로 관리할 수 있는가?
  • RQ2피LOT 추상화의 전체 일반성을 유지하면서도 자원 이용률을 얼마나 향상시킬 수 있는가?
  • RQ3RP 에이전트는 다양한 HPC 아키텍처에서 자원 효율성과 확장성 측면에서 어떻게 성능을 발휘하는가?
  • RQ4이질적 HPC 시스템에 배포되었을 때 피LOT 추상화의 오버헤드와 성능 영향은 어떠한가?

주요 결과

  • RP 에이전트는 이질적 HPC 시스템 간의 작업 스케줄링과 자원 할당을 효율적으로 관리함으로써 높은 자원 이용률을 달성한다.
  • RADICAL-Pilot는 피LOT 추상화의 충실한 구현을 통해 복잡하고 동적으로 상호연결된 워크로드를 성공적으로 지원한다.
  • 시스템은 다양한 이질적 HPC 환경에서 확장성과 상호운용성을 입증하며 일관된 성능을 보여준다.
  • 설계는 낮은 런타임 오버헤드를 달성하여 일반성을 유지하면서도 효율성을 훼손하지 않는다.
  • 성능 특성 분석 결과 RP는 공간적·시간적 이질성을 띤 워크로드를 대규모로 효과적으로 처리할 수 있음을 보여준다.
  • 시스템은 복잡한 과학 워크로드와 HPC 자원 정책 간의 보다 나은 일치를 가능하게 하여 실행 시의 마찰을 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.