Skip to main content
QUICK REVIEW

[論文レビュー] The Application of Cloud Computing to Astronomy: A Study of Cost and Performance

G. Bruce Berriman, Ewa Deelman|arXiv (Cornell University)|Oct 22, 2010
Scientific Computing and Data Management参考文献 2被引用数 27
ひとこと要約

本論文は、天文学分野の科学的ワークフローにおけるAmazon EC2上のクラウドコンピューティングの評価を行い、ケプラーの光曲線に対するピリオドグラム計算といったCPUおよびメモリ集約的タスクにおいて、ハイパフォーマンスクラスターよりも優れたコスト効率とパフォーマンスを達成できることを示している。研究では、210,000本の光曲線のピリオドグラムアトラスを26.8時間で生成し、コストは303.06ドルであった。これは、エクスオプレット研究における大量の科学的データ処理に、クラウドコンピューティングがスケーラブルでコスト効率の良いソリューションであることを証明している。

ABSTRACT

Cloud computing is a powerful new technology that is widely used in the business world. Recently, we have been investigating the benefits it offers to scientific computing. We have used three workflow applications to compare the performance of processing data on the Amazon EC2 cloud with the performance on the Abe high-performance cluster at the National Center for Supercomputing Applications (NCSA). We show that the Amazon EC2 cloud offers better performance and value for processor- and memory-limited applications than for I/O-bound applications. We provide an example of how the cloud is well suited to the generation of a science product: an atlas of periodograms for the 210,000 light curves released by the NASA Kepler Mission. This atlas will support the identification of periodic signals, including those due to transiting exoplanets, in the Kepler data sets.

研究の動機と目的

  • 科学的ワークフローにおけるクラウドコンピューティング(Amazon EC2)とハイパフォーマンスクラスタ(HPC)のコストとパフォーマンスを評価すること。
  • 特に天文学分野において、どの種類の科学的アプリケーションがパフォーマンスとコストの観点からクラウドデプロイメントに最も利益をもたらすかを特定すること。
  • ケプラー宇宙望遠鏡の光曲線に対するピリオドグラムのアトラスという新しい科学的製品の生成が、クラウドリソースを用いて実現可能で価値があることを実証すること。
  • I/O集約的、メモリ制限あり、CPU集約的ワークフローにおいて、クラウドベースの処理と従来のHPCの比較を行うこと。
  • 科学コミュニティが商業クラウドと機関のHPCリソースの間で戦略的選択を行うのを支援すること。

提案手法

  • Montage(I/O集約的画像モザイキング)、Broadband(メモリ集約的地震シミュレーション)、Epigenome(CPU集約的DNAマッピング)という3つの異なる科学的ワークフローを評価した。
  • 各ワークフローをAmazon EC2で実行し、NCSAに所在するAbe HPCクラスタと比較して実行時間、コスト、リソース利用状況を測定した。
  • 標準化された入力データを用い、ウォールクロック時間、合計CPU時間、入出力サイズ、金銭的コストを測定した。
  • EC2上で3つのアルゴリズム(Lomb-Scargle、Plavchan、およびカスタム手法)を用いて、210,664本のケプラー光曲線の包括的なピリオドグラムアトラスを生成した。
  • 並列に128の仮想プロセッサをプロビジョニングし、固定されたピリオドサンプリング(0.04〜16.75日、0.001日間隔)を実施し、合計処理時間とコストを追跡した。
  • 計算、データ転送、ストレージのコスト内訳を分析し、スケーラビリティおよびオンデマンドプロビジョニングの利点を評価した。

実験結果

リサーチクエスチョン

  • RQ1CPU集約的、メモリ集約的、I/O集約的という種類の科学的ワークフローの中で、Amazon EC2とHPCクラスタを比較した場合、どのタイプが最も優れたパフォーマンスとコスト効率を達成するか?
  • RQ2ケプラー光曲線に対するピリオドグラム計算のような大規模な天文学的データ処理において、クラウドベースの処理と従来のHPCのパフォーマンスはどのように比較されるか?
  • RQ3商業クラウド上で大規模な科学的データセットを処理する際の主なコスト要因(計算、データ転送、ストレージ)は何か?
  • RQ4クラウドコンピューティングは、公的天文学データセットからのピリオドグラムアトラスのような新しい複雑な科学的製品の生成を効果的に支援できるか?
  • RQ5計算要件が異なる科学的ワークフローにおいて、商業クラウドと機関のHPCシステムの間の妥当なトレードオフは何か?

主な発見

  • クラウドはCPU集約的およびメモリ制限ありのワークフローにおいてHPCクラスタを上回った。EpigenomeおよびBroadbandワークフローでは、EC2上で顕著なパフォーマンス向上が確認された。
  • Montage(I/O集約的ワークフロー)は、EC2上で高いI/O遅延のため性能が低く、高速ネットワークと並列ファイルシステムを備えたHPCクラスタがI/O集約的タスクにおいて依然として優れていることを確認した。
  • 210,664本のケプラー光曲線のピリオドグラムアトラスは、128台のEC2プロセッサを用いて26.8時間で正常に生成され、合計コストは303.06ドルであった。
  • 計算コストが合計の96.2%(291.58ドル)を占め、76.52 GBの出力データのためデータ転送コストが11.48ドルと顕著であった。
  • クラウドはオンデマンドプロビジョニングと迅速なジョブスケジューリングを可能にし、従来のグリッドシステムよりも遅延を低減した。これは、時間的に敏感な科学的分析にとって極めて重要である。
  • 絶対的なコストは低かったが、本研究はデータ量とパrameter空間のスケーリングに伴いコストが増加することを警告しており、非常に大規模または長時間の計算には商業クラウドが最適でない可能性があると示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。