QUICK REVIEW

[論文レビュー] Generating SU(Nc) pure gauge lattice QCD configurations on GPUs with CUDA and OpenMP

Nuno Cardoso, Pedro Bicudo|arXiv (Cornell University)|Dec 20, 2011

Quantum Chromodynamics and Particle Interactions被引用数 2

ひとこと要約

本論文では、GPU上でSU(Nc)純ゲージ格子QCD構成の生成を最適化したCUDAおよびOpenMP実装を提示しており、SU(2)、SU(3)、SU(4)およびNc ≥ 4の一般化されたSU(Nc)コードにおいて高い性能を達成している。著者らは、CPUベースの手法と比較して顕著な高速化を示しており、格子QCDコミュニティ向けに公開可能なコードを提供している。

ABSTRACT

The starting point of any lattice QCD computation is the generation of a Markov chain of gauge field configurations. Due to the large number of lattice links and due to the matrix multiplications, generating SU(Nc) lattice QCD configurations is a highly demanding computational task, requiring advanced computer parallel architectures such as clusters of several Central Processing Units (CPUs) or Graphics Processing Units (GPUs). In this paper we present and explore the performance of CUDA codes for NVIDIA GPUs to generate SU(Nc) lattice QCD pure gauge configurations. Our implementation in one GPU uses CUDA and in multiple GPUs uses OpenMP and CUDA. We present optimized CUDA codes SU(2), SU(3) and SU(4). We also show a generic SU(Nc) code for Nc$\,\geq 4$ and compare it with the optimized version of SU(4). Our codes are publicly available for free use by the lattice QCD community.

研究の動機と目的

行列積と大規模な格子サイズに起因する計算コストの高いSU(Nc)純ゲージ格子QCD構成の生成を高速化すること。
NVIDIA GPU上のデータ並列性を活用するCUDAによる単一GPU性能の最適化と、スケーラビリティを実現するOpenMPを用いたマルチGPUシステムへの拡張。
Nc ≥ 4のための最適化された汎用SU(Nc)コードの開発により、SU(3)やSU(2)を超える効率的なシミュレーションを可能にすること。
格子QCDコミュニティが格子場理論シミュレーションの発展を支援できるよう、公開可能で生産用途に耐える高性能コードを提供すること。

提案手法

NVIDIA GPU上のデータ並列性を活用するため、CUDAカーネルを用いてSU(Nc)ゲージ場の更新を実装。
CPU-GPUハイブリッドアーキテクチャにおける複数GPU間のデータ配布と同期をOpenMPで管理。
GPUストリーミングマルチプロセッサにおける遅延の最小化とオブザーバビリティの最大化を目的としたメモリアクセスパターンおよびカーネル起動の設計。
デバイス固有のCUDA機能を活用した行列積およびSU(Nc)群射影ルーチンの最適化。
Nc ≥ 4をサポートする一般化されたSU(Nc)カーネルの開発により、特定の群構造に依存しない抽象化を実現。
単一および複数GPUシステムにおけるSU(2)、SU(3)、SU(4)構成のパフォーマンスベンチマークの実施。

実験結果

リサーチクエスチョン

RQ1CUDAによるGPUアクセラレーションは、SU(Nc)格子QCD構成生成のパフォーマンスをどのように向上させるか？
RQ2OpenMPとCUDAを併用した複数GPUの使用は、格子QCDシミュレーションにおけるスケーラビリティとパフォーマンス向上にどの程度寄与するか？
RQ3Nc ≥ 4の一般化されたSU(Nc)実装のパフォーマンスは、最適化されたSU(4)コードと比較してどうなるか？
RQ4GPUベースの格子ゲージ場生成における主なボトルネックは何か、そしてそれらはどのように緩和できるか？

主な発見

CUDA最適化による単一GPU実装は、SU(2)、SU(3)、SU(4)ゲージ群において、従来のCPUベース手法と比較して顕著な高速化を達成している。
OpenMP + CUDAハイブリッドアプローチにより、複数GPU間での効率的なスケーリングが実現され、大規模な格子における構成生成時間の顕著な短縮が達成された。
Nc ≥ 4のための一般化されたSU(Nc)コードは、SU(3)を超える任意のユニタリゲージ群をサポートしながらも、高いパフォーマンスを維持している。
パフォーマンスベンチマークの結果、Nc = 4の場合に最適化されたSU(4)カーネルは一般化されたSU(Nc)実装を上回る性能を示しており、コード特化の価値が裏付けられた。
著者らは、格子QCDコミュニティに公開可能で生産用途に耐えるコードを成功裏に提供し、高性能シミュレーションへの広範なアクセスを可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。