QUICK REVIEW

[論文レビュー] cuGUGA: Operator-Direct Graphical Unitary Group Approach Accelerated with CUDA

Zihan Pengmei|arXiv (Cornell University)|Jan 25, 2026

Parallel Computing and Optimization Techniques被引用数 0

ひとこと要約

cuGUGAはCSF基底でオペレーター直直GUGA CI求解器を実装し、CUDA GPU上で加速する。CASCI/CASSCFワークロードにおいて、特に小さなアクティブ空間でほぼ厳密なエネルギーと大幅な速度アップを実現。

ABSTRACT

We present cuGUGA, an operator-direct graphical unitary group approach (GUGA) configuration interaction (CI) solver in a spin-adapted configuration state function (CSF) basis. Dynamic-programming walk counts provide constant-time CSF ranking/unranking, and pretabulated segment factors enable constant-time evaluation of coupling coefficients. Two-electron contributions are organized through an intermediate-weight formulation that separates sparse generator enumeration from integral contraction and supports both dense and density-fitted/Cholesky backends. We further map the same primitives to GPUs by implementing the irregular DRT traversal and accumulation in custom CUDA kernels while delegating contractions to CUDA libraries. The implementation reproduces reference energies at the 10^{-11} Eh level and matches CPU/GPU sigma-vectors to 10^{-14}. On an RTX 4090, the GPU backend provides up to ~10x speedup over the CPU backend for smaller active spaces and multifold speedups on representative CASCI kernels. Speedup decreases as the active space grows because the workload becomes increasingly dominated by FP64 GEMM, which is not strongly accelerated on consumer GPUs. In addition, the cuGUGA CPU backend generally delivers >2x speedup over PySCF's determinant backend and >4x speedup over PySCF CSF backend.

研究の動機と目的

強く相関する系の正確な多参照電子構造法の動機づけ。
CSF直接・グラフスパースな定式化を活用するスピン適合CSFベースCIソルバーの開発。
CSF結合の列挙を積分収縮から分離し、CUDAへのマッピングを行うことで効率的なGPU実装を実現。）

提案手法

CSFをDRT/Shavittグラフの根から葉への歩行として表現し、CSFのランキング/アンランキングのためにsuffix歩行数W(v)を動的計画法で計算する。
局所セグメント因子Sを定数時間で評価するために2レベルのLUTを使用し、セグメント歩行中のE_pq作用を実現する。
疎CSF結合をセグメント歩行隣接オラクルで列挙し、密/密度適合化やCholeskyと積分とで収縮してσ=Hcを構築する。
二電子部分を中間重み分解で表現し、生成子列挙と積分収縮を分離するためにC^(rs)_(μj)とg^(μj)_(pq)を導入する。
GPUマッピングをフラット化したDRTテーブル、テーブル駆動のセグメント因子、バッチ Davidson反復、非規則出力を扱うカウント-スキャン-ライト戦略で実装。
収縮のためにデンス/DF-Choleskyバックエンドを提供し、結果をデバイス上で二重精度で蓄積。

Figure 7: CASCI kernel timings for three representative systems (fixed Davidson budget; mean over three repeats). The GPU bar corresponds to the cuGUGA backend on an RTX 4090.

実験結果

リサーチクエスチョン

RQ1CSF基底でのオペレーター直GUGA定式化は参照エネルギーを高精度で再現できるか？
RQ2さまざまなアクティブ空間に対するCPUバックエンドとPySCF実装に対するcuGUGA GPUバックエンドの性能特性とスピードアップはどの程度か？
RQ3密デンス対DF/CholeskyバックエンドはGPU上のエンドツーエンドCASCI/CASSCFワークフローでどう比較されるか？
RQ4DAGベースのCSFランキング/アンランキングとLUTベースセグメント因子は不規則なグラフトラバーサルのスケーラブルなGPU実行をどの程度可能にするか？
RQ5GPU生成σベクトルはCPUリファレンスと絶対誤差・相対誤差の点でどの程度近いか？

主な発見

Code/Backend	Model/Problem	Energy E (Eh)	ΔE (Eh)
PySCF	DET	-224.6516842783717	0
PySCF	CSF	-224.6516842783705	1.194×10^-12
cuGUGA	CPU	-224.6516842783876	-1.586×10^-11
cuGUGA	CUDA	-224.6516842783876	-1.589×10^-11
PySCF	DET	-77.870218781788	0
CuGUGA	CPU	-77.870218781467	-3.211×10^-10
CuGUGA	GPU	-77.870218781769	-1.917×10^-11
Columbus	MCSCF	-77.870218782000	-2.121×10^-10
OpenMolcas	RASSCF	-77.87021875	3.179×10^-08

CuGUGAは参照エネルギーを1e-11 Ehレベルで再現し、σベクトルを1e-14（相対）まで一致させる。
RTX 4090上で、GPUバックエンドは小さなアクティブ空間でCPUバックエンドに対して最大約10×のスピードアップを達成し、CASCIカーネルでは適用可能な場合に大幅な乗数を示す。
CuGUGAのCPUバックエンドは一般にPySCFのデターミネントバックエンドより≳2×、PySCFのCSFバックエンドより≳4×のスピードアップを提供する。
より大きなアクティブ空間では、DF/Choleskyバックエンドが行列-行列収縮を効率化し、GEMMのボトルネックの支配を減らすことで性能を向上させる。
本手法はベンチマークケース（例：CAS(12,12)のO3、エチレン CAS(2,2)）で正しいCASCI/CASSCFエネルギーを示し、報告された許容誤差内でコード間の一貫性を確保する。
不規則なDRT走査とセグメント歩行列挙はGPU上でカウント-スキャン-ライトを用いて変動出力サイズを効率的に処理する。

Figure 8: Matvec (hop) timing breakdown for O 3 CAS(12,12) in the fixed-budget benchmark, comparing the cuGUGA CPU contract backend and the cuGUGA GPU backend. Bars are stacked by major phases.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。