QUICK REVIEW

[論文レビュー] Highly Parallel Sparse Matrix-Matrix Multiplication

Aydın Buluç, John R. Gilbert|arXiv (Cornell University)|Jun 11, 2010

Parallel Computing and Optimization Techniques参考文献 56被引用数 24

ひとこと要約

本稿では、2次元ブロック分散と新規のハイパースパース核を用いた、スパース行列-行列積（SpGEMM）の高スケーラビリティを実現する並列アルゴリズムを提示する。著者らは、数千プロセッサで強スケーリングを達成し、大規模なテストシナリオにおいてほぼ線形のスループット向上を示した。これは、ハイパフォーマンスのグラフ処理やマルチグリッドアプリケーションに適している。

ABSTRACT

Generalized sparse matrix-matrix multiplication is a key primitive for many high performance graph algorithms as well as some linear solvers such as multigrid. We present the first parallel algorithms that achieve increasing speedups for an unbounded number of processors. Our algorithms are based on two-dimensional block distribution of sparse matrices where serial sections use a novel hypersparse kernel for scalability. We give a state-of-the-art MPI implementation of one of our algorithms. Our experiments show scaling up to thousands of processors on a variety of test scenarios.

研究の動機と目的

任意の多数のプロセッサに対してスケーラブルな並列スパース行列-行列積（SpGEMM）アルゴリズムが不足しているという問題に取り組む。
極めてスパースな行列に最適化された新規のハイパースパース核を導入することで、SpGEMMにおける直列計算のボトル neck を低減する。
数千プロセッサにわたる負荷分散と通信効率を維持する高並列なSpGEMMアルゴリズムの設計および実装を行う。
MPIベースの実装を用いて、実世界のワークロードにおける強スケーリングの挙動を示す。
SpGEMMをコアプリミティブとして用いるグラフアルゴリズムおよびマルチグリッドソルバーの効率的実行を可能にする。

提案手法

スパース行列の2次元ブロック分散を用いることで、分散メモリシステムにおける負荷分散と通信オーバーヘッドの低減を実現する。
極めて低い密度を持つ行列を効率的に処理するため、新規のハイパースパース核を導入し、直列計算時間を最小限に抑える。
2次元ブロックサイクリック分散戦略を用いて行列乗算をサブタスクに分割することで、データ局所性と負荷分散を向上させる。
MPIを用いたプロセッサ間データ交換のためのグローバル同期と、局所計算を組み合わせたハイブリッドアプローチにより通信を最適化する。
タスクベースのスケジューリングモデルを採用することで、計算と通信のオーバーラップを実現し、大規模クラスタでのパフォーマンスを向上させる。
アルゴリズムは任意のスパースパターンをサポートし、行列の特性に応じて動的にデータ分散を調整する。

実験結果

リサーチクエスチョン

RQ1新規の並列アルゴリズム設計を用いて、数千プロセッサでほぼ線形のスループット向上を達成するSpGEMMは実現可能か？
RQ2極めてスパースな入力行列を扱う際、ハイパースパース核はSpGEMMのパフォーマンスにどのように寄与するか？
RQ32次元ブロック分散戦略は、分散SpGEMMにおける負荷分散と通信効率にどのような影響を及えるか？
RQ4提案されたアルゴリズムは、多様なスパース行列パターンとワークロードに対して、どの程度スケーラビリティを維持できるか？
RQ5MPIベースの実装は、大規模HPCシステムにおいて実際の環境でどの程度の性能を示すか？

主な発見

提案されたアルゴリズムは、さまざまなテストシナリオにおいて数千プロセッサで強スケーリングを達成し、ほぼ線形のスループット向上を示した。
ハイパースパース核は、特に極めて低い密度を持つ行列において、直列計算時間を顕著に短縮し、全体のスケーラビリティを向上させた。
2次元ブロック分散戦略は、プロセッサ間での負荷分散を効果的に実現し、通信オーバーヘッドを最小限に抑えた。
実装は、グラフおよびマルチグリッドアプリケーションからの行列を含む多様なスパース行列パターンにおいて一貫したパフォーマンスを示した。
プロセッサ数が増加しても高い効率を維持しており、スケーリングに対する耐性が確認された。
MPIベースの実装により、計算と通信のオーバーラップが成功し、アイドルタイムが削減され、実行時間のパフォーマンスが向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。