QUICK REVIEW

[論文レビュー] Distributed-Memory DMRG via Sparse and Dense Parallel Tensor Contractions

Ryan Levy, Edgar Solomonik|arXiv (Cornell University)|Jul 10, 2020

Tensor decomposition and applications参考文献 39被引用数 7

ひとこと要約

本論文は、Cyclopsテンソルフレームワークを用いて分散メモリ環境におけるDMRG実装を提示し、スパースおよび密行列の並列テンソル畳み込みを効率的に行うことで、量子多体系シミュレーションを高速化する。テンソルネットワークにおけるブロックスパース構造を活用することで、ITensorと比較して実行時間で最大5.9倍の高速化、処理レートで99倍の向上を達成し、Blue Waters や Stampede2 といったスーパーコンピュータ上で弱スケーラビリティを示しながら、大規模な量子系における高精度計算を可能にする。

ABSTRACT

The Density Matrix Renormalization Group (DMRG) algorithm is a powerful tool for solving eigenvalue problems to model quantum systems. DMRG relies on tensor contractions and dense linear algebra to compute properties of condensed matter physics systems. However, its efficient parallel implementation is challenging due to limited concurrency, large memory footprint, and tensor sparsity. We mitigate these problems by implementing two new parallel approaches that handle block sparsity arising in DMRG, via Cyclops, a distributed memory tensor contraction library. We benchmark their performance on two physical systems using the Blue Waters and Stampede2 supercomputers. Our DMRG performance is improved by up to 5.9X in runtime and 99X in processing rate over ITensor, at roughly comparable computational resource use. This enables higher accuracy calculations via larger tensors for quantum state approximation. We demonstrate that despite having limited concurrency, DMRG is weakly scalable with the use of efficient parallel tensor contraction mechanisms.

研究の動機と目的

2次元量子系のDMRGシミュレーションを、並列性が限られ、メモリ使用量が高いためにスケーリングする課題に対処すること。
従来の単一ノード DMRG における性能ボトルネックを克服し、効率的な分散メモリ並列処理を可能にすること。
DMRG における U(1) 対称性に起因するブロックスパーステンソルに特化した、2つの新規並列テンソル畳み込み戦略（スパース-スパースおよびリストベース）の開発とベンチマーク化。
効率的なテンソル畳み込みプリミティブを用いて、ペタスケールスーパーコンピュータ上での DMRG の弱スケーラビリティを実証すること。
単一ノードでは実現不可能だったより大きな結合次元と波動関数近似を可能にすることで、高精度シミュレーションを実現すること。

提案手法

DMRG アルゴリズムは、ハイパフォーマンスコンピューティングを目的とした分散メモリテンソル畳み込みライブラリである Cyclops Tensor Framework を用いて実装された。
2つの新しい並列アプローチが導入された：(1) ブロックスパースデータ構造を用いたスパース-スパーステンソル畳み込み、(2) 顕著なインデックスリストを用いてテンソルブロックを管理するリストベース畳み込み。
フレームワークは最適化されたスパース BLAS (MKL) 呼び出しを活用し、分散メモリ環境下で密行列およびスパース行列の両方のテンソル操作をサポートする。
テンソル畳み込みはアインシュタインの総和記法で表現され、行列乗算にマッピングされ、パフォーマンス最適化のための畳み込み順序が最適化されている。
量子系のハミルトニアンと波動関数のモデル化に、行列積状態 (MPS) および行列積演算子 (MPO) の表現が使用された。
アルゴリズムは2サイトテンソルにおけるダヴィッドソン反復を用いたサイト最適化を実行し、その後、SVDに基づく切断により結合次元の制御がなされた。

実験結果

リサーチクエスチョン

RQ1分散メモリテンソル畳み込みは、正確性を損なわずに、従来のDMRGアルゴリズムを著しく高速化できるか？
RQ2異なるスパーステンソル格納および畳み込み戦略（スパース-スパース対リストベース）は、テンソルのスパarsityおよび系のサイズに応じて、どのように性能を示すか？
RQ3効率的なテンソル畳み込みプリミティブを用いる場合、DMRG はペタスケールスーパーコンピュータ上でどの程度弱スケーラビリティを達成できるか？
RQ4より大きな結合次元にスケーリングする際、実行時間、処理レート、リソースコストの間でどのようなトレードオフが生じるか？
RQ5ハードウェアアーキテクチャの違い（例：Blue Waters 対 Stampede2）は、DMRG におけるスパーステンソル操作の効率性にどのように影響するか？

主な発見

提案された DMRG 実装は、同じ計算リソース上での ITensor と比較して、実行時間で最大5.9倍の短縮、処理レートで最大99倍の向上を達成した。
スパース-スパース畳み込み法は、電子系において m = 8192 の場合、Stampede2 でピーク相対効率1.0を達成し、ほぼ理想のスケーリングを示した。
Blue Waters では、リストベース法が m = 32,768 の場合、相対コストの4.5倍で処理速度が14倍向上し、大規模問題において強力な性能を示した。
スパース-スパース法では、結合次元が 4,096 から 32,768 に増加するに従い、スパース MKL 呼び出しの合計時間に占める割合が14%から52%に増加し、依存度が高まった。
アーキテクチャの違いにもかかわらず、両手法とも弱スケーラビリティを示し、単一ノードの制限をはるかに超える最大64倍のメモリ容量と最大512倍の複雑性を有するシミュレーションが可能になった。
実装は、シリアルノードと比較して相対コスト1.5倍で処理レートを99倍向上させ、複雑な量子系の高精度シミュレーションを現実可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。