QUICK REVIEW

[論文レビュー] An Optimized Sparse Approximate Matrix Multiply

Nicolas Bock, Matt Challacombe|arXiv (Cornell University)|Mar 8, 2012

Quantum Computing Algorithms and Architecture参考文献 104被引用数 1

ひとこと要約

この論文は、行列要素の減衰を活用して O(n ln n) の複雑さを持つスパース近似行列乗算（SpAMM）アルゴリズムの最適化された単精度実装を提示しており、n ≈ 1000 以上の行列において SGEMM よりも優れた性能を示し、同時に SGEMM よりも低い誤差（最大ノルム）を維持している。この実装は、ナードルな MKL/ACML に基づくアプローチに比べて SpAMM の実行を著しく高速化しており、ハードウェアプリリフェッチの改善により 2–3 倍の高速化が期待できる。

ABSTRACT

Group T-1, Theoretical Division, Los Alamos National Laboratory, Los Alamos, NM 87544(Dated: March 22, 2012)We present an optimized single-precision implementation of the Sparse Approximate Matrix Mul-tiply (SpAMM) [M. Challacombe and N. Bock, arXiv 1011.3534 (2010)], a fast algorithm for matrix-matrix multiplication for matrices with decay that achieves an O(nlnn) computational complexitywith respect to matrix dimension n. We nd that the max norm of the error achieved with a SpAMMtolerance below 2 810 is lower than that of the single-precision SGEMM for dense quantum chem-ical matrices, while outperforming SGEMM with a cross-over already for small matrices (n˘1000).Relative to naive implementations of SpAMM using Intel’s Math Kernel Library (MKL) or AMD’s CoreMath Library (ACML), our optimized version is found to be signi cantly faster. Detailed perfor-mance comparisons are made for quantum chemical matrices with di erently structured sub-blocks.Finally, we discuss the potential of improved hardware prefetch to yield 2{3x speedups.

研究の動機と目的

量子化学的応用における単精度行列乗算の SpAMM アルゴリズムを最適化すること。
小規模から中規模の行列サイズにおいて、標準的な SGEMM よりも低い誤差を達成しながら、優れたパフォーマンスを維持すること。
アルゴリズム的および低レベルの最適化を通じて、ナードルな MKL や ACML に依存する実装を上回る SpAMM の高速化を実現すること。
量子化学の行列における異なる部分ブロック構造を有する行列を対象に、パフォーマンスを評価すること。
ハードウェアプリリフェッチの潜在的効果が、SpAMM のパフォーマンスをさらに向上させうるかを検討すること。

提案手法

行列要素の減衰を利用し、O(n ln n) の複雑さで行列乗算を近似する SpAMM アルゴリズムを採用する。
単精度演算およびキャッシュに配慮したメモリアクセスに特化した低レベル最適化を用いてアルゴリズムを実装する。
アルゴリズム的および実装上の改善によるパフォーマンス向上を明確に分離するために、SGEMM およびナードルな MKL/ACML に基づく SpAMM と比較してベンチマークを実施する。
スケーラビリティと頑健性を評価するため、異なる部分ブロック構造を持つ量子化学的行列を対象にパフォーマンスを分析する。
制御された実験を通じて、ハードウェアプリリフェッチのパフォーマンスへの影響を評価する。
正確性が保持されることを保証するため、正確な行列乗算との相対的な誤差を最大ノルムで定量化する。

実験結果

リサーチクエスチョン

RQ1SpAMM は、量子化学的行列において、SGEMM よりもパフォーマンスと正確性の両面で優れるように最適化可能か？
RQ2最適化された SpAMM 実装は、MKL や ACML に依存するナードルな実装と比較して、実行時間およびスケーラビリティにおいてどのように異なるか？
RQ3量子化学的行列における部分ブロック構造の違いが、最適化された SpAMM に与えるパフォーマンスへの影響は何か？
RQ4ハードウェアプリリフェッチは、SpAMM のパフォーマンスをどの程度向上させられるか？また、どの程度の高速化が達成可能か？
RQ5SpAMM は、2×10⁻⁸ 未満の許容誤差を設定した場合でも、SGEMM よりも低い誤差を維持するか？

主な発見

最適化された SpAMM 実装は、n ≈ 1000 の行列において SGEMM を上回る性能を示し、このサイズでパフォーマンスのクロスオーバーが発生している。
SpAMM の許容誤差を 2×10⁻⁸ 未満に設定した場合、最大ノルム誤差が SGEMM よりも低くなることが確認され、より優れた正確性が裏付けられた。
ターゲットとなる低レベル最適化のおかげで、MKL や ACML に依存するナードルな実装と比較して、最適化された SpAMM は著しく高速である。
異なる部分ブロック構造を持つ行列に対しても、性能向上が一貫して得られており、行列の変動に対して頑健であることが示された。
ハードウェアプリリフェッチは、2–3 倍の高速化を実現する可能性を示しており、将来的なシステムにおける重要な最適化の方向性であることが明らかになった。
SpAMM の O(n ln n) の複雑さは、減衰を示す大きな行列においてスケーラブルなパフォーマンスを実現でき、量子化学的応用に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。