Skip to main content
QUICK REVIEW

[論文レビュー] Savu: A Python-based, MPI Framework for Simultaneous Processing of Multiple, N-dimensional, Large Tomography Datasets

Nicola Wadeson, Mark Basham|arXiv (Cornell University)|Oct 24, 2016
Computational Physics and Python Applications被引用数 31
ひとこと要約

Savuは、スケールの大きなn次元トモグラフィー・データセットを並列かつスケーラブルに処理することを目的とした、PythonベースでMPIを搭載したフレームワークです。モジュラー・プラグインと並列HDF5を活用することで、メモリ制限を克服し、クラスターや単一マシン上で効率的で柔軟かつ拡張可能なデータ処理を実現しています。Diamond Light Sourceの自己加速器施設でも実際に導入されており、成功裏に運用されています。

ABSTRACT

Diamond Light Source (DLS), the UK synchrotron facility, attracts scientists from across the world to perform ground-breaking x-ray experiments. With over 3000 scientific users per year, vast amounts of data are collected across the experimental beamlines, with the highest volume of data collected during tomographic imaging experiments. A growing interest in tomography as an imaging technique, has led to an expansion in the range of experiments performed, in addition to a growth in the size of the data per experiment. Savu is a portable, flexible, scientific processing pipeline capable of processing multiple, n-dimensional datasets in serial on a PC, or in parallel across a cluster. Developed at DLS, and successfully deployed across the beamlines, it uses a modular plugin format to enable experiment-specific processing and utilises parallel HDF5 to remove RAM restrictions. The Savu design, described throughout this paper, focuses on easy integration of existing and new functionality, flexibility and ease of use for users and developers alike.

研究の動機と目的

  • シンクロトロン施設で生成される、ますます大型かつ複雑化するトモグラフィー・データセットの処理という、増大する課題に対処すること。
  • 複数のn次元データセットを、計算クラスタ上で効率的かつスケーラブルに並列処理すること。
  • プラグインアーキテクチャを通じて、既存および新規の処理アルゴリズムを柔軟かつ拡張可能にサポートするフレームワークを提供すること。
  • 並列HDF5I/Oとの統合により、大容量データセットの処理におけるRAM制限を克服すること。
  • シンクロトロンビームラインにおける非エキスパートユーザーおよび開発者にとってのデータ処理ワークフローを簡素化すること。

提案手法

  • フレームワークはPythonで実装されており、複数のノードに跨る分散計算のためにMPI(メッセージパッシングインターフェース)を採用している。
  • ユーザーおよび開発者が特定の実験的ニーズに応じてカスタム処理ステップを挿入できるモジュラー・プラグインシステムを採用している。
  • データの入出力は並列HDF5によって処理され、効率的なI/Oとメモリ圧力を低減する。
  • パイプラインアーキテクチャにより、単一マシンでの逐次処理またはクラスタ上の並列実行が可能である。
  • フレームワークはn次元データセットをサポートしており、複雑なトモグラフィー画像処理ワークロードに適している。
  • 処理ステップ、データフロー、実行パラメータを定義する設定駆動型のワークフロー・システムを提供している。

実験結果

リサーチクエスチョン

  • RQ1計算クラスタ上で大規模かつマルチデータセットのトモグラフィー処理を効率的に並列化する方法は何か? その際、メモリオーバーヘッドを最小限に抑えるには?
  • RQ2高性能コンピューティング環境において、多様な科学的処理プラグインの拡張性と統合の容易性を実現するアーキテクチャパターンは何か?
  • RQ3同一フレームワークが、PCでのインタラクティブな小規模処理とクラスタ上の大規模分散処理の両方をどのようにサポートできるか?
  • RQ4並列HDF5は、n次元トモグラフィー・データセットのスケーラブルなI/Oをどのように実現するか?
  • RQ5シンクロトロン環境における非エキスパートユーザーにとって、科学的ワークフローをどのように使いやすくかつ保守可能にするか?

主な発見

  • Savuは、クラスタ上で複数の大型トモグラフィー・データセットを並列処理することに成功し、逐次実行と比較して処理時間を顕著に短縮した。
  • 並列HDF5の使用により、利用可能なRAMよりも大きなデータセットを効率的に処理でき、従来のメモリボトルネックを克服した。
  • モジュラー・プラグインアーキテクチャのおかげで、コアフレームワークを変更せずに新しい処理アルゴリズムをシームレスに統合できる。
  • フレームワークはDiamond Light Sourceの複数のビームラインに導入されており、実運用においてもスケーラビリティと信頼性を実証している。
  • PC上でのインタラクティブ開発とクラスタ上の高スループットバッチ処理の両方をサポートしており、ユーザーの多様なニーズに応える使いやすさを実現している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。