Skip to main content
QUICK REVIEW

[論文レビュー] A Comprehensive Perspective on the Pilot-Job Abstraction.

Matteo Turilli, Mark Santcroos|arXiv (Cornell University)|Aug 17, 2015
Distributed and Parallel Computing Systems参考文献 73被引用数 3
ひとこと要約

本論文は、パイロットジョブシステムの包括的定義とアーキテクチャフレームワークを確立し、その動機、進化、コア抽象化を分析する。標準化された用語を導入し、主要な論理的コンポonentと特性を特定し、7つの実装を評価することで、分散科学計算における相互運用性、移植性、耐障害性を向上させる。

ABSTRACT

Pilot-Job systems play an important role in supporting distributed scientific computing. They are used to consume more than 700 million CPU hours a year by the Open Science Grid communities, and by processing up to 1 million jobs a day for the ATLAS experiment on the Worldwide LHC Computing Grid. With the increasing importance of task-level parallelism in high-performance computing, Pilot-Job systems are also witnessing an adoption beyond traditional domains. Notwithstanding the growing impact on scientific research, there is no agreement upon a definition of Pilot-Job system and no clear understanding of the underlying abstraction and paradigm. Pilot-Job implementations have proliferated with no shared best practices or open interfaces and little interoperability. Ultimately, this is hindering the realization of the full impact of Pilot-Jobs by limiting their robustness, portability, and maintainability. This paper offers a comprehensive analysis of Pilot-Job systems critically assessing their motivations, evolution, properties, and implementation. The three main contributions of this paper are: (i) an analysis of the motivations and evolution of Pilot-Job systems; (ii) an outline of the Pilot abstraction, its distinguishing logical components and functionalities, its terminology, and its architecture pattern; and (iii) the description of core and auxiliary properties of Pilot-Jobs systems and the analysis of seven exemplar Pilot-Job implementations. Together, these contributions illustrate the Pilot paradigm, its generality, and how it helps to address some challenges in distributed scientific computing.

研究の動機と目的

  • 分散科学計算におけるパイロットジョブシステムの定義と設計原則についての合意形成の欠如に対処すること。
  • パイロット抽象化を特定・形式化すること。これには、論理的コンポonent、機能、アーキテクチャパターンが含まれる。
  • 実装と評価をガイドするための共通用語とフレームワークを確立すること。コアおよび補助的特性を対象とする。
  • 提案された抽象化への適合度と共通のパターンやギャップを特定するために、7つの代表的パイロットジョブ実装を評価すること。
  • ベストプラクティスとオープンインタフェースを確立することで、相互運用性、保守性、移植性を向上させること。

提案手法

  • 科学的分野にわたるパイロットジョブシステムの動機と歴史的進化を包括的に分析すること。
  • ジョブ送信、リソース管理、動的スケジューリングを含む、明確に区別できるコンポonentを持つ論理的アーキテクチャパターンとしてのパイロット抽象化を定義すること。
  • 実装間での明確なコミュニケーションを促進するため、パイロットジョブシステムの標準化された用語と概念的モデルを提案すること。
  • 耐障害性、動的リソース割り当てなどのコア特性と、負荷分散、監視などの補助特性を特定し、強固なシステムに不可欠な要素とする。
  • 定義された抽象化と特性に基づいて、7つの代表的実装(例:Open Science Grid、WLCG/ATLAS)を評価し、適合度と多様性を分析すること。
  • 一般化されたパラダイムに統合し、ハイパフォーマンスコンピューティングにおけるタスクレベル並列処理とクロスプラットフォーム移植性を支援すること。

実験結果

リサーチクエスチョン

  • RQ1科学計算におけるパイロットジョブシステムの開発の主な動機と進化の駆動要因は何か?
  • RQ2パイロットジョブシステムのコア抽象化とは何か。コンポonent、機能、アーキテクチャの観点から形式的に定義できるか?
  • RQ3強固で移植可能なパイロットジョブ実装を特徴付ける、必須のコア特性と補助特性は何か?
  • RQ4既存のパイロットジョブシステムは、提案された抽象化と標準化フレームワークへの適合度において、どのように比較できるか?
  • RQ5用語、インタフェース、特性の標準化が、分散科学計算における相互運用性と保守性をどの程度向上させ得るか?

主な発見

  • パイロットジョブシステムは広く使用されており、Open Science Gridでは年間7億CPU時間以上、ATLAS実験では1日あたり最大100万件のジョブを処理している。
  • 広範な使用にもかかわらず、パイロットジョブシステムの定義、用語、アーキテクチャパターンについての合意形成が存在せず、実装が断片化している。
  • 提案されたパイロット抽象化は、動的ジョブスケジューリングとリソースに配慮した実行を含む、識別可能な論理的コンポonentを持つ統合的フレームワークを提供する。
  • 耐障害性、動的リソース割り当て、負荷分散といったコア特性は、異種計算環境における強固な運用に不可欠である。
  • 7つの代表的システムの分析から、実装アプローチの顕著な相違が明らかとなり、相互運用性が限定的で、共有インタフェースが欠如していることが判明した。
  • パイロット抽象化および関連する特性の標準化は、科学的コンピューティングワークフローの移植性、保守性、長期的持続可能性を顕著に向上させ得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。