QUICK REVIEW

[論文レビュー] Memory layout in GPU implementation of lattice Boltzmann method for sparse 3D geometries

Tadeusz Tomczak, Roman G. Szafran|arXiv (Cornell University)|Nov 8, 2016

Lattice Boltzmann Simulation Studies被引用数 2

ひとこと要約

本稿では、スパースな3次元幾何形状における格子ボルツマン法（LBM）のGPU最適化メモリレイアウトを提示している。均一な3次元タイルと戦略的なデータ配置を用いることで、不要なメモリトランザクションを低減する。この手法は、倍精度を用いたD3Q19において、理論上のGPUメモリ帯域幅の70％以上を達成し、スパースで局所的に一貫性のあるドメインにおいて、他のGPU LBM実装を著しく上回る性能を発揮する。

ABSTRACT

We describe a high-performance implementation of the lattice Boltzmann method (LBM) for sparse 3D geometries on graphic processors (GPU). The main contribution of this work is a data layout that allows to minimise the number of redundant memory transactions during the propagation step of LBM. We show that by using a uniform mesh of small three-dimensional tiles and a careful data placement it is possible to utilise more than 70% of maximum theoretical GPU memory bandwidth for D3Q19 lattice and double precision numbers. The performance of our implementation is thoroughly examined and compared with other GPU implementations of LBM. The proposed method performs the best for sparse geometries with good spatial locality.

研究の動機と目的

スパースな3次元幾何形状におけるGPUアクセcelerated格子ボルツマン法（LBM）シミュレーションにおける性能ボトルネックを解消すること。
GPU上でLBMの伝搬ステップ中に生じる不要なメモリトランザクションを最小限に抑えること。
知的なデータレイアウトとタイリングを通じて、GPUメモリ帯域幅の利用を最大化すること。
スパースで空間的に局所化された状況において、既存のGPU LBM実装と比較して優れた性能を達成すること。

提案手法

計算ドメインを小さな3次元タイルの均一メッシュで分割する。
空間的局所性を高め、不要なメモリアクセスを減らすために、データをタイル内に慎重に配置する。
GPUメモリアクセスパターンに合わせてレイアウトを設計することで、コalescingの向上と帯域幅利用効率の向上を図る。
倍精度浮動小数点演算を用いたD3Q19格子モデルを採用する。
アクセスパターンに合わせてデータを整理することで、伝搬ステップ中のメモリトランザクションを最小限に抑える。
空間的局所性が保たれるスパース幾何形状をターゲットとし、高い帯域幅効率を実現する。

実験結果

リサーチクエスチョン

RQ1GPUアクセcelerated LBMにおけるスパースな3次元幾何形状のメモリアクセスパターンは、どのように最適化できるか？
RQ2データレイアウト設計によって、どの程度まで不要なメモリトランザクションを削減できるか？
RQ3最適化されたタイリングとデータ配置戦略によって、どの程度のGPUメモリ帯域幅が達成可能か？
RQ4提案されたレイアウトは、既存のGPU LBM実装と比較して、性能面でどの程度優れているか？
RQ5どのような状況で、提案手法が優れた性能を発揮するか？

主な発見

提案されたメモリレイアウトは、D3Q19格子と倍精度浮動小数点数において、理論的最高メモリ帯域幅の70％以上を達成した。
空間的局所性が良好なスパース3次元幾何形状において、他のGPUベースのLBM手法と比較して著しく優れた性能を発揮した。
タイリングとデータ配置戦略により、伝搬ステップ中の不要なメモリトランザクションが効果的に低減された。
最適化されたメモリコalescingと空間的局所性のおかげで、高い性能を維持した。
計算密度は低いが局所的整合性が高いスパースドメインにおいて、特に効果的であった。
結果から、メモリ帯域幅利用効率が主な性能ボトルネックであり、レイアウトに配慮した設計によって効果的に緩和可能であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。