QUICK REVIEW
[論文レビュー] A comparison of CPU and GPU performance for Fourier pseudospectral simulations of the Navier-Stokes, Cubic Nonlinear Schrodinger and Sine Gordon Equations
Brandon Cloutier, Benson K. Muite|arXiv (Cornell University)|Jun 14, 2012
Meteorological Phenomena and Simulations被引用数 3
ひとこと要約
この論文は、ナビエ=ストークス方程式、三次非線形シュレーディンガー方程式、サイン=ゴルドン方程式を、フーリエ擬スペクトル法を用いて解く際のCPUとGPUの性能を比較している。OpenACCおよびCUDA FORTRANを用いたGPUアクセラレーションにより、FFTWベースのCPU実装に比べて顕著な性能向上が示された。また、高レベルのディレクティブとCuFFTを用いることで、レガシーフォーランコードをGPUに効率的に移植できることが示された。
ABSTRACT
A comparison of PGI OpenACC, FORTRAN CUDA, and Nvidia CUDA pseudospectral methods on a single GPU and GCC FORTRAN on single and multiple CPU cores is reported. The GPU implementations use CuFFT and the CPU implementations use FFTW. Porting pre-existing FORTRAN codes to utilize a GPUs is efficient and easy to implement with OpenACC and CUDA FORTRAN. Example programs are provided.
研究の動機と目的
- GPUアクセラレートされた擬スペクトル法の性能スケーラビリティを、従来のCPUベースのソルバーと比較して評価すること。
- OpenACCおよびCUDA FORTRANを用いた既存のフォーランコードをGPUアーキテクチャに移植する際の容易さと効率を評価すること。
- ナビエ=ストークス方程式、三次非線形シュレーディンガー方程式、サイン=ゴルドン方程式の3つのPDEについて、CPUおよびGPUプラットフォーム間での実行時間性能を比較すること。
- スペクトルシミュレーションにおけるGPU上のCuFFTとCPU上のFFTWの効果的さを評価すること。
提案手法
- 研究では、PGI OpenACC、FORTRAN CUDA、Nvidia CUDAを用いて、1つのGPU上でフーリエ擬スペクトル法を実装した。
- CPUベースのシミュレーションでは、高速フーリエ変換にFFTWライブラリを用いた。
- GPUベースのシミュレーションでは、NVIDIA GPU上で高性能なFFT計算を実現するため、CuFFTライブラリを活用した。
- 同じフォーランソースコードを、OpenACCディレクティブおよびCUDA FORTRAN構文を用いてGPU実行用に変更し、ポータブルで効率的な移植を可能にした。
- 性能評価は、シングルコアおよびマルチコアCPU構成、およびシングルGPU環境で実施した。
- 移植プロセスと性能向上を示すための例題プログラムを提供した。
実験結果
リサーチクエスチョン
- RQ1GPUアクセラレーションは、ナビエ=ストークス方程式、三次非線形シュレーディンガー方程式、サイン=ゴルドン方程式の擬スペクトルシミュレーションにおいて、CPUベースのFFTWに比べてどの程度性能を向上させるか?
- RQ2OpenACCおよびCUDA FORTRANを用いることで、レガシーフォーランコードをGPUアーキテクチャにどの程度効率的に移植できるか?
- RQ3これらのPDEにおいて、GPU上のCuFFTとCPU上のFFTWの相対的性能向上はどの程度か?
- RQ4シングルGPUとマルチコアCPU構成の間で、実行時間およびスケーラビリティの観点から、どのように比較されるか?
主な発見
- OpenACCおよびCUDA FORTRANを用いたGPU実装は、特に大きな問題サイズにおいて、CPUベースのFFTWに比べて顕著な高速化を達成した。
- OpenACCおよびCUDA FORTRANを用いた既存のフォーランコードのGPU移植は、最小限のコード変更で効率的かつ簡単に行えることが示された。
- 特にメモリ制限や計算集約的なシナリオにおいて、GPU上のCuFFTはCPU上のFFTWに比べて優れた性能を発揮した。
- 問題サイズが大きくなるほどGPUの性能優位性が顕著になることから、GPUアーキテクチャにおける強いスケーラビリティが示された。
- 提供された例題プログラムにより、移植されたソルバーの実用的で動作する実装が検証され、スペクトル法におけるGPUアクセラレーションの実現可能性が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。