Skip to main content
QUICK REVIEW

[論文レビュー] The JASMIN super-data-cluster

Bryan Lawrence, Victoria Bennett|arXiv (Cornell University)|Apr 16, 2012
Distributed and Parallel Computing Systems参考文献 8被引用数 31
ひとこと要約

JASMINスーパーデータクラスタは、英国およびヨーロッパの気候および地球システム科学コミュニティに、ペタスケールの高性能コンピューティングおよびストレージインfrastrucureを提供する。9.3 PBのストレージと370以上のコンピューティングコアを統合し、仮想化・スケーラブルなサービスを提供することで、効率的なデータキュレーション、大規模な分析、複雑なデータセットへの柔軟なアクセスを可能にする。HPC、データキュレーション、クラウドベースのインfrastrucure-as-a-Service (IaaS) およびソフトウェア-as-a-Service (SaaS) 機能を統合し、共同研究ワークフローを支援する。

ABSTRACT

The JASMIN super-data-cluster is being deployed to support the data analysis requirements of the UK and European climate and earth system modelling community. Physical colocation of the core JASMIN resource with significant components of the facility for Climate and Environmental Monitoring from Space (CEMS) provides additional support for the earth observation community, as well as facilitating further comparison and evaluation of models with data. JASMIN and CEMS together centrally deploy 9.3 PB of storage - 4.6 PB of Panasas fast disk storage alongside the STFC Atlas Tape Store. Over 370 computing cores provide local computation. Remote JASMIN resources at Bristol, Leeds and Reading provide additional distributed storage and compute configured to support local workflow as a stepping stone to using the central JASMIN system. Fast network links from JASMIN provide reliable communication between the UK supercomputers MONSooN (at the Met Office) and HECToR (at the University of Edinburgh). JASMIN also supports European users via a light path to KNMI in the Netherlands. The functional components of the JASMIN infrastructure have been designed to support and integrate workflows for three main goals: (1) the efficient operation of data curation and facilitation at the STFC Centre for Environmental Data Archival; (2) efficient data analysis by the UK and European climate and earth system science communities, and; (3) flexible access for the climate impacts and earth observation communities to complex data and concomitant services.

研究の動機と目的

  • 地理的に分散し、多様な科学的コミュニティが関与するペタスケールの気候および地球観測データの管理と分析という増大する課題に対処する。
  • 孤立したデータおよび分析施設の制限を克服するため、共有可能でスケーラブルかつ安全なコンピューティング環境を提供する。
  • データキュレーション、ハイパフォーマンスコンピューティング、柔軟なクラウドサービスを統合し、科学的分析と再利用可能なデータ処理ワークフローの開発を支援する。
  • 気候モデル、地球観測、影響評価のコミュニティ間の協力を促進するため、データと計算リソースへの統一的アクセスを提供する。
  • 仮想化およびサービス指向のインfrastrucure(IaaS、PaaS、SaaS)を活用して、効率的で再現可能かつスケーラブルなデータ集約型科学的ワークフローを実現する。

提案手法

  • STFCラザフォード・アプルトン研究所に集中型のJASMINスーパーデータクラスタを設置し、高速パナサスディスクストレージ4.6 PBとテープストレージ4.8 PBを備え、合計9.3 PBまでスケーラブルに拡張可能である。
  • 低遅延ネットワークを介して370以上のコンピューティングコアを統合し、ハイパフォーマンスデータ分析およびHPCワークロードをサポートする。
  • vCloud Directorを用いた仮想化を実装し、マルチテナントを可能にするとともに、研究グループや機関向けにインfrastrucure-as-a-Service (IaaS) を提供する。
  • プラットフォーム-as-a-Service (PaaS) およびソフトウェア-as-a-Service (SaaS) モデルを支援することで、カスタムアルゴリズムの開発とデータ処理サービスのデプロイを可能にする。
  • UKのスーパーコンピュータ(MONSooN、HECToR)および国際パートナー(KNMI)との間で高速ネットワーク接続を確立し、データおよび計算リソースのシームレスな交換を実現する。
  • Earth System Grid Federation (ESGF) およびCEDAのデータキュレーションインfrastrucureと統合し、相互運用性と長期的なデータアクセシビリティを確保する。

実験結果

リサーチクエスチョン

  • RQ1集中型のハイパフォーマンスデータインフラストラクチャは、分散した機関間の気候および地球システム科学研究の障壁をどのように低減できるか?
  • RQ2効率的でスケーラブルかつ安全な方法で、多様な科学的コミュニティがペタスケールの環境データセットにアクセスできるような、アーキテクチャ的戦略および仮想化戦略は何か?
  • RQ3共有インフラストラクチャは、科学的および商業的用途の両方において、ハイパフォーマンスコンピューティングと柔軟でオンデマンドのデータ処理サービス(IaaS、PaaS、SaaS)をどのように統合できるか?
  • RQ4データとコンピューティングリソースの物理的同居が、データ分析のパフォーマンスおよびワークフロー効率を向上させる役割を果たすか?
  • RQ5気候モデルデータ、観測データ、処理サービスの統合は、モデル評価およびデータ同化ワークフローをどのように簡素化できるか?

主な発見

  • JASMINとCEMSを統合することで、合計9.3 PBのスケーラブルなストレージが実現し、そのうち4.6 PBがハイパフォーマンスディスク、4.8 PBがテープストレージである。これにより、大規模なデータキュレーションと分析が可能となる。
  • 低遅延ネットワークを介した370以上のコンピューティングコアが提供され、並列データ分析およびHPCワークロードの効率的実行を可能にする。
  • vCloud Directorによる仮想化によりマルチテナントが実現され、インfrastrucure-as-a-Service (IaaS) をサポートする。これにより、研究グループが隔離され、カスタマイズ可能なコンピューティング環境をプロビジョニングできる。
  • プラットフォーム-as-a-Service (PaaS) およびソフトウェア-as-a-Service (SaaS) モデルのデプロイが可能であり、科学的アルゴリズムおよびデータ処理ワークフローの開発と共有を促進する。
  • ブリストル、リード、リーディングに設置されたリモートJASMINリソースが、分散アクセスを拡張し、ワークフローを中央システムに移行するのを支援する。
  • 気候モデル、地球観測、影響評価のコミュニティ間の効率的な協力を可能にする。統一的でスケーラブルかつ相互運用性のあるデータおよび計算環境を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。