[論文レビュー] Cloud Scheduler: a resource manager for distributed compute clouds
Cloud Scheduler は、分散型 IaaS クラウドにおけるハイパーバッチコンピューティング(HTC)ワークロード向けに、ユーザーがカスタム設定を施した仮想マシン(VM)のデプロイと管理を自動化する仮想マシンリソースマネージャーである。このシステムは、Condor ジョブスケジューラと統合され、商用クラウドおよび科学用クラウドで動的VMプロビジョニングを可能にし、ユーザーの設定を最小限に抑えつつシームレスなジョブ実行を実現している。天文学者や素粒子物理学者のワークロードで9,000件以上のジョブを実行した実績を示している。
The availability of Infrastructure-as-a-Service (IaaS) computing clouds gives researchers access to a large set of new resources for running complex scientific applications. However, exploiting cloud resources for large numbers of jobs requires significant effort and expertise. In order to make it simple and transparent for researchers to deploy their applications, we have developed a virtual machine resource manager (Cloud Scheduler) for distributed compute clouds. Cloud Scheduler boots and manages the user-customized virtual machines in response to a user's job submission. We describe the motivation and design of the Cloud Scheduler and present results on its use on both science and commercial clouds.
研究の動機と目的
- インfraストラクチャ・ツー・ア・サービス(IaaS)クラウド上での大規模かつ複雑な科学的アプリケーションのデプロイと管理を簡素化すること。
- ハイパーバッチコンピューティング(HTC)環境において、複数のクラウドプロバイダーにまたがる数百台のユーザーがカスタム設定を施した仮想マシン(VM)を管理する複雑さに対処すること。
- 研究者が低レベルのクラウド管理を一切行わずにジョブを提出できるようにし、VM のプロビジョニングと設定を抽象化すること。
- 商用(例:Amazon EC2)および科学用途に特化した研究用クラウドを含む、異種のクラウド環境をサポートすること。
- アプリケーションを VM にカプセル化し、中央集権的なスケジューラで管理することで、科学的ワークフローのポータビリティと再現性を向上させること。
提案手法
- Cloud Scheduler は、分散型 IaaS クラウドにおけるジョブの送信とリソースの割り当てを管理するため、Condor HTC ジョブスケジューラと統合されている。
- ユーザーは、VM イメージの場所、CPU アーキテクチャ、メモリ、ストレージ、ネットワーク要件などを指定したカスタム属性を用いてジョブを送信する。
- ジョブ送信後、Cloud Scheduler は必要な VM の種別を検出すると、クラウドプロバイダー(例:Amazon EC2 や Nimbus)に指定された VM イメージを起動するよう要求する。
- 起動された VM は、Condor スタート・デーモン(startd)を開始し、CCB(Condor Connection Brokering)を介して Condor センターマネージャに自身を広報し、ジョブのディスpatchが可能になる。
- 本システムは、Amazon EC2、Nimbus、OpenNebula、Eucalyptus といった複数のクラウドバックエンドをサポートしており、将来的なプロバイダーに対しても拡張性を備えている。
- VM イメージは中央集権的または分散型のリポジトリに格納され、デプロイの前にユーザーがカスタマイズ可能である。
実験結果
リサーチクエスチョン
- RQ1どのようにして、複数の分散型 IaaS クラウドにおいて、ユーザーがカスタム設定を施した仮想マシン(VM)の管理を抽象化し、自動化できるか?
- RQ2異種の構成を持つ動的でクラウドホスティングのVMを管理するために、Condor のような中央集権的なスケジューラをどの程度拡張できるか?
- RQ3地理的に分散したクラウドリソース上で、I/O 適応の高い科学的ワークロードを実行する際に生じるパフォーマンスおよび信頼性上の課題は何か?
- RQ4CPU やネットワーク特性が異なるリモートクラウドインスタンス上でジョブを実行する際、データのポータビリティと整合性をどのように維持できるか?
- RQ5商用クラウドおよび科学的指向のクラウドインfraストラクチャにまたがるHTCワークロードをスケーリングする際の主な運用上のボトルネックは何か?
主な発見
- Cloud Scheduler は、1週間の間に Amazon EC2 およびその他のクラウド上で2,000件以上の7時間のジョブを正常に管理し、スケーラビリティと信頼性を実証した。
- 本システムにより、UVic、NRC、Amazon EC2 の3つのクラウドサイトが統合され、伝統的なクラスタと同一の動作を示す単一の分散型HTC環境が構築された。
- EC2 上ではネットワーク遅延のためデータベースI/Oのパフォーマンスが著しく低下したが、データベースを Amazon S3 にレプリケートすることでジョブ実行時間が約50%短縮された。
- 旧式のAMDプロセッサ搭載の標準EC2インスタンスでは、浮動小数点演算の不一致により、出力データが基準データと異なったが、Intelプロセッサ搭載の「ハイCPU」インスタンスに切り替えることで解決した。
- 本システムは高いフェイルセーフ性と動的プロビジョニングを実現しており、リクエストに応じてVMが自動的に起動され、スケジューラに広報された。
- 本システムは、CANFAR 天文学プロジェクトにおいて9,000件以上のジョブと33,000コアアワーの計算をサポートし、実世界の科学的ワークフローにおける実用性を検証した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。