Skip to main content
QUICK REVIEW

[論文レビュー] Better Process Mapping and Sparse Quadratic Assignment

Christian Schulz, Jesper Larsson Träff|arXiv (Cornell University)|Jan 1, 2017
Interconnection Networks and Systems参考文献 26被引用数 5
ひとこと要約

本論文は、階層的通信トポロジーとスパースな通信パターンを活用することで、高性能コンピューティング(HPC)におけるプロセスマッピングのためのマルチレベルでスパースな二次割り当て問題(QAP)アプローチを提案する。バランスの取れたグラフ分割とトポロジーに配慮したモデル作成、最適化された局所探索を統合することで、従来のヒューリスティクスと比較して、収束が著しく速くなり、特に階層に配慮したマルチセクションモデル作成を用いる場合、最適解の品質が最大56.1%向上する。

ABSTRACT

Communication and topology aware process mapping is a powerful approach to reduce communication time in parallel applications with known communication patterns on large, distributed memory systems. We address the problem as a quadratic assignment problem (QAP), and present algorithms to construct initial mappings of processes to processors, and fast local search algorithms to further improve the mappings. By exploiting assumptions that typically hold for applications and modern supercomputer systems such as sparse communication patterns and hierarchically organized communication systems, we obtain significantly more powerful algorithms for these special QAPs. Our multilevel construction algorithms employ perfectly balanced graph partitioning techniques and exploit the given communication system hierarchy in significant ways. We present improvements to a local search algorithm of Brandfass et al. (2013), and further decrease the running time by reducing the time needed to perform swaps in the assignment as well as by carefully constraining local search neighborhoods. We also investigate different algorithms to create the communication graph that is mapped onto the processor network. Experiments indicate that our algorithms not only dramatically speed up local search, but due to the multilevel approach also find much better solutions in practice.

研究の動機と目的

  • 分散メモリシステムにおいて、既知の通信パターンを持つ大規模並列アプリケーションにおける通信コストの最小化という課題に対処すること。
  • スパースな通信パターンと階層的ハードウェアトポロジーを活用することで、プロセスマッピングの効率と解の品質を向上させること。
  • 二次割り当て問題(QAP)のための制約付き近傍探索と最適化されたスワップ評価を用いた、より高速な局所探索アルゴリズムの開発。
  • 特に再帰的バイセクションと階層に配慮したマルチセクションの比較を含む、異なるモデル作成戦略が最終的なマッピング品質に与える影響を調査すること。
  • オンライン距離計算とスパース行列表現を用いることで、最大2^19コアを有するシステムに対してもスケーラブルなプロセスマッピングを可能にすること。

提案手法

  • 通信行列Cとトポロジーコスト行列Dを用いて、通信量とプロセッサ間距離を表すことで、プロセスマッピングをスパースな二次割り当て問題(QAP)としてモデル化する。
  • システムの物理的トポロジーアーキテクチャの階層を尊重する完全にバランスの取れたグラフ分割と階層的マルチセクションアルゴリズムを組み合わせたマルチレベルフレームワークを採用する。
  • 通信グラフ構造を活用してスワップ評価時間を短縮するとともに、探索空間を制限する、N10近傍を持つ新規局所探索アルゴリズムを導入する。
  • 通信行列のスパース表現とオンライン距離計算を用いることで、主記憶容量を超えるスケーラビリティを実現する。
  • 再帰的バイセクション(RB)と階層に配慮したマルチセクション(RMS)の2つのモデル作成戦略を適用し、RMSはシステムトポロジーを通信グラフ構築段階に明示的に組み込む。
  • KaHIPグラフ分割フレームワーク内に本アプローチを実装し、すべてのモジュールを統合されたパイプラインとしてプロセスマッピングに統合する。

実験結果

リサーチクエスチョン

  • RQ1スパースな通信パターンと階層的トポロジーを活用することで、大規模HPCシステムにおけるプロセスマッピングの品質と効率はどの程度向上するか?
  • RQ2近傍探索の最適化と高速なスワップ評価により、局所探索の性能はどの程度向上するか?
  • RQ3再帰的バイセクションと階層に配慮したマルチセクションのモデル作成アルゴリズムの選択が、プロセスマッピングパイプラインの最終的解の品質に与える影響はいかほどか?
  • RQ4フル距離行列がメモリ容量を超える場合でも、オンライン距離計算により最大2^19コアのシステムにおけるスケーラブルなプロセスマッピングが可能になるか?
  • RQ5提案されたマルチレベルアプローチは、Müller-Merbach や Brandfass et al. などのベースラインヒューリスティクスと比較して、どの程度の相対的性能向上を達成するか?

主な発見

  • 階層に配慮したモデル作成(RMS)を用いた TopDown+N10 アルゴリズムは、再帰的バイセクション(RB)を用いた Müller-Merbach ベースラインと比較して、解の品質が56.1%向上する。
  • RMSに基づくモデル作成によるアイデンティティマッピングは、RBを用いた Müller-Merbach と比較して、解の品質が51.6%向上し、トポロジーに配慮したモデル作成の強力な影響を示している。
  • N10近傍を用いた局所探索は、スワップ評価の最適化と探索空間の制限により、実行時間を著しく短縮し、収束が速くなる。
  • オンライン距離計算により、最大2^19プロセスの問題を扱えるようになり、フル距離行列をメモリに保持できない制限を克服した。
  • 高品質な分割とトポロジーに配慮したモデル作成を組み合わせたマルチレベル構築アプローチは、すべてのテスト問題サイズにおいて、ベースライン手法を常に上回るスピードと解の品質を達成する。
  • TopDown初期化とN10局所探索、RMSモデル作成の組み合わせが、最も優れた全体的なパフォーマンスを発揮し、RBを用いた Müller-Merbach と比較して54.1%の向上を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。