QUICK REVIEW

[論文レビュー] Interstellar

Xuan Yang, Mingyu Gao|arXiv (Cornell University)|Mar 9, 2020

Advanced Neural Network Applications参考文献 31被引用数 56

ひとこと要約

本論文は、7重のネストされたループにおけるループ順序および並列性の選択として、密なDNNアクセラレータのマイクロアーキテクチャを形式的分類する手法を提案する。Halideのスケジューリング言語を用いてハードウェアを表現・生成し、リソース割り当て（特にメモリシステム）を最適化することで、スループットを維持したまま、CNNでは最大4.2倍、LSTMでは1.6倍、MLPでは1.8倍のエネルギー効率向上を達成した。

ABSTRACT

We show that DNN accelerator micro-architectures and their program mappings represent specific choices of loop order and hardware parallelism for computing the seven nested loops of DNNs, which enables us to create a formal taxonomy of all existing dense DNN accelerators. Surprisingly, the loop transformations needed to create these hardware variants can be precisely and concisely represented by Halide's scheduling language. By modifying the Halide compiler to generate hardware, we create a system that can fairly compare these prior accelerators. As long as proper loop blocking schemes are used, and the hardware can support mapping replicated loops, many different hardware dataflows yield similar energy efficiency with good performance. This is because the loop blocking can ensure that most data references stay on-chip with good locality and the processing units have high resource utilization. How resources are allocated, especially in the memory system, has a large impact on energy and performance. By optimizing hardware resource allocation while keeping throughput constant, we achieve up to 4.2X energy improvement for Convolutional Neural Networks (CNNs), 1.6X and 1.8X improvement for Long Short-Term Memories (LSTMs) and multi-layer perceptrons (MLPs), respectively.

研究の動機と目的

既存の密なDNNアクセラレータマイクロアーキテクチャを、7重のネストされたループにおける特定のループ順序および並列性の選択として形式化すること。
Halideスケジュールからのハードウェア生成により、先行研究のアクセラレータ同士を公平に比較可能にする仕組みを提供すること。
特にメモリシステムにおけるハードウェアリソース割り当てが、エネルギー効率およびパフォーマンスに与える影響を調査すること。
スループットを維持しつつリソース割り当てを最適化することで、CNN、LSTM、MLPの各分野におけるエネルギー効率を最大化すること。

提案手法

Halideのスケジューリング言語を用いて、DNNアクセラレータマイクロアーキテクチャをループ変換としてモデル化し、ループ順序およびハードウェア並列性を捉える。
Halideコンパイラーを拡張し、これらのスケジュールからハードウェア記述を生成する機能を追加し、アクセラレータのバリエーションを自動合成可能にする。
ループブロッキング方式を適用して高いデータ局所性とオンチップデータ再利用を確保し、リソース利用効率を向上させる。
スループットを一定に保ちながら、ハードウェアリソース割り当て（特にメモリ階層部品）を体系的に変更する。
Halideコンパイラースタックを用いて、さまざまなデータフロー構成におけるエネルギー効率とパフォーマンスのトレードオフを調査する。
標準的なDNNワークロード（CNN、LSTM、MLP）に対して、得られたハードウェア設計を、一貫したスループット制約のもとで評価する。

実験結果

リサーチクエスチョン

RQ1既存のDNNアクセラレータマイクロアーキテクチャは、ループ変換およびスケジューリング原則を用いてどのように形式的に分類可能か？
RQ2適切なループブロッキングが適用された場合、異なるハードウェアデータフローは、性能およびエネルギー効率においてどの程度同等の結果を達成できるか？
RQ3メモリシステムのリソース割り当ては、DNNアクセラレータのエネルギー効率およびパフォーマンスにどのように影響を与えるか？
RQ4コンパイラー駆動のアプローチにより、先行アクセラレータ設計と公平に比較可能なハードウェアを生成できるか？
RQ5スループットを一定に保ったまま、ハードウェアリソース割り当てを最適化することで、最大どの程度のエネルギー改善が達成可能か？

主な発見

適切なループブロッキングにより、高いデータ局所性とオンチップ再利用が確保され、多様なハードウェアデータフロー間で同等の性能およびエネルギー効率が達成可能になる。
ループブロッキングが適用された場合、多数の異なるハードウェアデータフローが、効果的なオンチップデータ再利用と高いプロセッシングユニット利用率のおかげで、類似したエネルギー効率およびパフォーマンスを達成する。
メモリシステムのリソース割り当ては、DNNアクセラレータにおけるエネルギー効率およびパフォーマンスに決定的な影響を与える。
スループットを維持したままメモリリソース割り当てを最適化することで、本手法は畳み込みニューラルネットワーク（CNNs）で最大4.2倍のエネルギー改善を達成した。
長短記憶（LSTMs）では1.6倍、多層パーセプトロン（MLPs）では1.8倍のエネルギー効率向上を達成した。
Halideベースのハードウェア生成システムにより、正確なスケジューリング駆動合成を通じて、先行アクセラレータ設計の公平で体系的かつ自動的な比較が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。