QUICK REVIEW

[論文レビュー] Fast Convolutional Nets With fbfft: A GPU Performance Evaluation

Nicolas Vasilache, Jeff Johnson|arXiv (Cornell University)|Dec 24, 2014

Advanced Neural Network Applications参考文献 14被引用数 251

ひとこと要約

本稿では、GPUアクセラレートされた畳み込みニューラルネットワーク向けに最適化されたオープンソースFFTライブラリfbfftを提示する。深層学習ワークロードに特化したアルゴリズム的最適化、たとえばタイリング、インプレース転置、周波数ドメイン畳み込みのためのカスタムカーネル結合を活用することで、cuFFTに対して1.5倍以上の高速化、cuDNNに対して最大23.5倍の高速化を達成した。

ABSTRACT

We examine the performance profile of Convolutional Neural Network training on the current generation of NVIDIA Graphics Processing Units. We introduce two new Fast Fourier Transform convolution implementations: one based on NVIDIA's cuFFT library, and another based on a Facebook authored FFT implementation, fbfft, that provides significant speedups over cuFFT (over 1.5x) for whole CNNs. Both of these convolution implementations are available in open source, and are faster than NVIDIA's cuDNN implementation for many common convolutional layers (up to 23.5x for some synthetic kernel configurations). We discuss different performance regimes of convolutions, comparing areas where straightforward time domain convolutions outperform Fourier frequency domain convolutions. Details on algorithmic applications of NVIDIA GPU hardware specifics in the implementation of fbfft are also provided.

研究の動機と目的

現代のGPUにおける畳み込みニューラルネットワーク（CNN）学習の性能ボトルネックを解消するため、高速フーリエ変換（FFT）を用いた周波数ドメイン畳み込みの検討を行う。
深層学習で一般的な小規模な特徴マップと大規模なミニバッチを扱う際、cuFFT や cuDNN といった既存のGPU FFTライブラリの限界を克服する。
さまざまな畳み込み層構成において、cuFFT や cuDNN を上回る性能を発揮する、カスタムで高度に最適化されたFFT実装（fbfft）の開発。
タイリング、非同期FFT事前計算、インプレースメモリ管理などのアルゴリズム的最適化を通じて、GPUの利用効率を向上させ、メモリ圧力を軽減する。

提案手法

畳み込み定理を用いて周波数ドメイン畳み込みを実装：入力とカーネルをFFTで周波数ドメインに変換し、要素ごとの乗算を実行した後、逆FFTにより出力を得る。
fbfftを設計。1次元および2次元のバッチ処理を最適化した、スクラッチから作成されたオープンソースGPU FFTライブラリで、2のべき乗サイズをサポートし、暗黙のパディングによりメモリオーバーヘッドを低減する。
タイリングを適用して大規模な畳み込みを小さな畳み込み（サイズ～カーネルサイズ）に分解し、計算量のオーダーをO(n log n)からO(n log w)に低下させ、fbfftの小規模サイズでの高性能を効果的に活用可能にする。
FFT結果の再利用、非同期での重みFFT事前計算、不要な一時バッファの削除により、メモリアクセスとカーネル起動オーバーヘッドを最適化する。
メモリ帯域とカーネル起動コストを削減するため、カスタムのインプレース・レジスタ内転置および要素ごとの乗算カーネルを統合する。
ビットリバース操作を排除するため、DIF/DIT FFTのバリエーションを活用し、小規模FFTサイズでのパフォーマンスを向上させる。

実験結果

リサーチクエスチョン

RQ1現代のGPUにおいて、一般的な深層学習ワークロードを想定した場合、FFTを用いた周波数ドメイン畳み込みは、時間ドメイン畳み込みを上回る性能を発揮できるか？
RQ2cuFFT と cuDNN のパフォーマンス特性は、特に小規模な特徴マップと大規模なミニバッチを含む多様な畳み込み層構成において、どのように異なるか？
RQ3深層学習におけるドメイン固有のパターンを活用することで、ブラックボックスライブラリ（例：cuFFT）に比べ、カスタムFFT実装（fbfft）がどれほどパフォーマンスを向上できるか？
RQ4タイリング、メモリ再利用、カーネル結合といったアルゴリズム的最適化は、FFTベース畳み込みにおける遅延最小化とGPU利用効率最大化にどの程度効果的か？
RQ5小規模FFTサイズ（8–64）におけるfbfftの性能優位性を、タイリングとメモリ管理戦略により、大規模畳み込みへと拡張可能か？

主な発見

fbfftは、ターゲットとなる問題領域における畳み込み演算で、cuFFT比平均1.51倍の高速化を達成し、多くの構成で1.5倍を超える向上を示した。
fbfftを用いたFFTベース畳み込み実装は、合成されたカーネル構成ではcuDNN比最大23.5倍の高速化を達成し、一般的な層サイズでは1.4倍～14.5倍の高速化を実現した。
小規模畳み込み（8–64）では、最適化されたメモリアクセス、低減されたカーネル起動オーバーヘッド、暗黙のパディングのおかげで、cuFFT比1.5倍以上の高速化を達成した。
タイリング戦略により、大規模畳み込みの漸近的計算量がO(n log n)からO(n log w)に低下し、fbfftの小規模サイズでの高性能を効果的に活用できるようになった。
層間でFFT結果を再利用し、重みのFFTを非同期で事前計算することで、メモリ圧力を軽減し、GPU利用効率を向上させ、一時バッファの使用を削減した。
著者らは、特定のケースでGPU効率比が75％を超えるのを達成し、アルゴリズム的およびメモリ最適化によりGPU計算リソースを高効率に活用したことを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。