QUICK REVIEW

[論文レビュー] A comparison of CPU and GPU performance for Fourier pseudospectral simulations of the Navier-Stokes, Cubic Nonlinear Schrodinger and Sine Gordon Equations

Brandon Cloutier, Benson K. Muite|arXiv (Cornell University)|Jun 14, 2012

Meteorological Phenomena and Simulations被引用数 3

ひとこと要約

この論文は、ナビエ＝ストークス方程式、三次非線形シュレーディンガー方程式、サイン＝ゴルドン方程式を、フーリエ擬スペクトル法を用いて解く際のCPUとGPUの性能を比較している。OpenACCおよびCUDA FORTRANを用いたGPUアクセラレーションにより、FFTWベースのCPU実装に比べて顕著な性能向上が示された。また、高レベルのディレクティブとCuFFTを用いることで、レガシーフォーランコードをGPUに効率的に移植できることが示された。

ABSTRACT

A comparison of PGI OpenACC, FORTRAN CUDA, and Nvidia CUDA pseudospectral methods on a single GPU and GCC FORTRAN on single and multiple CPU cores is reported. The GPU implementations use CuFFT and the CPU implementations use FFTW. Porting pre-existing FORTRAN codes to utilize a GPUs is efficient and easy to implement with OpenACC and CUDA FORTRAN. Example programs are provided.

研究の動機と目的

GPUアクセラレートされた擬スペクトル法の性能スケーラビリティを、従来のCPUベースのソルバーと比較して評価すること。
OpenACCおよびCUDA FORTRANを用いた既存のフォーランコードをGPUアーキテクチャに移植する際の容易さと効率を評価すること。
ナビエ＝ストークス方程式、三次非線形シュレーディンガー方程式、サイン＝ゴルドン方程式の3つのPDEについて、CPUおよびGPUプラットフォーム間での実行時間性能を比較すること。
スペクトルシミュレーションにおけるGPU上のCuFFTとCPU上のFFTWの効果的さを評価すること。

提案手法

研究では、PGI OpenACC、FORTRAN CUDA、Nvidia CUDAを用いて、1つのGPU上でフーリエ擬スペクトル法を実装した。
CPUベースのシミュレーションでは、高速フーリエ変換にFFTWライブラリを用いた。
GPUベースのシミュレーションでは、NVIDIA GPU上で高性能なFFT計算を実現するため、CuFFTライブラリを活用した。
同じフォーランソースコードを、OpenACCディレクティブおよびCUDA FORTRAN構文を用いてGPU実行用に変更し、ポータブルで効率的な移植を可能にした。
性能評価は、シングルコアおよびマルチコアCPU構成、およびシングルGPU環境で実施した。
移植プロセスと性能向上を示すための例題プログラムを提供した。

実験結果

リサーチクエスチョン

RQ1GPUアクセラレーションは、ナビエ＝ストークス方程式、三次非線形シュレーディンガー方程式、サイン＝ゴルドン方程式の擬スペクトルシミュレーションにおいて、CPUベースのFFTWに比べてどの程度性能を向上させるか？
RQ2OpenACCおよびCUDA FORTRANを用いることで、レガシーフォーランコードをGPUアーキテクチャにどの程度効率的に移植できるか？
RQ3これらのPDEにおいて、GPU上のCuFFTとCPU上のFFTWの相対的性能向上はどの程度か？
RQ4シングルGPUとマルチコアCPU構成の間で、実行時間およびスケーラビリティの観点から、どのように比較されるか？

主な発見

OpenACCおよびCUDA FORTRANを用いたGPU実装は、特に大きな問題サイズにおいて、CPUベースのFFTWに比べて顕著な高速化を達成した。
OpenACCおよびCUDA FORTRANを用いた既存のフォーランコードのGPU移植は、最小限のコード変更で効率的かつ簡単に行えることが示された。
特にメモリ制限や計算集約的なシナリオにおいて、GPU上のCuFFTはCPU上のFFTWに比べて優れた性能を発揮した。
問題サイズが大きくなるほどGPUの性能優位性が顕著になることから、GPUアーキテクチャにおける強いスケーラビリティが示された。
提供された例題プログラムにより、移植されたソルバーの実用的で動作する実装が検証され、スペクトル法におけるGPUアクセラレーションの実現可能性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。