Skip to main content
QUICK REVIEW

[論文レビュー] Understanding Reuse, Performance, and Hardware Cost of DNN Dataflows: A Data-Centric Approach

Hyoukjun Kwon, Prasanth Chatarasi|arXiv (Cornell University)|May 4, 2018
Parallel Computing and Optimization Techniques参考文献 39被引用数 4
ひとこと要約

本論文では、DNNデータフローにおける再利用、占有状態、パフォーマンスのトレードオフを定量化することで、ハードウェア設計の探索を支援するデータ中心の分析的コストモデル、MAESTROを提案する。データフローの指示をコンパイラフレンドリーな形式にエンコードすることにより、MAESTROは4億8000万の設計を効率的に探索でき、1秒あたり0.17百万の設計で、250万の有効な設定を同定した。これには、スループットとエネルギー効率のパレート最適なポイントも含まれる。

ABSTRACT

The data partitioning and scheduling strategies used by DNN accelerators to leverage reuse and perform staging are known as dataflow, and they directly impact the performance and energy efficiency of DNN accelerator designs. An accelerator microarchitecture dictates the dataflow(s) that can be employed to execute a layer or network. Selecting an optimal dataflow for a layer shape can have a large impact on utilization and energy efficiency, but there is a lack of understanding on the choices and consequences of dataflows, and of tools and methodologies to help architects explore the co-optimization design space. In this work, we first introduce a set of data-centric directives to concisely specify the space of DNN dataflows in a compilerfriendly form. We then show how these directives can be analyzed to infer various forms of reuse and to exploit them using hardware capabilities. We codify this analysis into an analytical cost model, MAESTRO (Modeling Accelerator Efficiency via Spatio-Temporal Reuse and Occupancy), that estimates various cost-benefit tradeoffs of a dataflow including execution time and energy efficiency for a DNN model and hardware configuration. We demonstrate the use of MAESTRO to drive a hardware design space exploration (DSE) experiment, which searches across 480M designs to identify 2.5M valid designs at an average rate of 0.17M designs per second, including Pareto-optimal throughput- and energy-optimized design points.

研究の動機と目的

  • DNNアクセラレータ設計におけるデータフロー選択の体系的かつ理解の不足と、それらを探索するためのツールの欠如に対処すること。
  • データ中心の指示を用いて、DNNデータフローをコンパイラフレンドリーな形式で定式化すること。
  • 空間的・時間的再利用とハードウェアの占有状態に基づいて、データフローのパフォーマンスとエネルギー効率のトレードオフをモデル化すること。
  • 数百万もの設定をカバーするスケーラブルなハードウェア設計の探索空間(DSE)を可能にすること。
  • スループットとエネルギー効率の両面で最適なバランスを取るパレート最適な設計を同定すること。

提案手法

  • コンパイラフレンドリーな形式でDNNデータフロー戦略を簡潔に表現できる、データ中心の指示のセットを定義する。
  • これらの指示を分析し、重み、活性化、出力における空間的および時間的再利用パターンを推定する。
  • 再利用とハードウェアリソースの占有状態に基づいて実行時間とエネルギーを推定する、分析的コストモデルMAESTROを構築する。
  • 占有状態を基盤とするパフォーマンスとエネルギーの指標を用いて、コスト・ベネフィットのトレードオフを定式化する。
  • MAESTROをハードウェアDSEフレームワークに統合し、4億8000万の設計ポイントを効率的に探索する。
  • モデルを用いて、スループットとエネルギーの次元において、有効な設計とパレート最適な設定を同定する。

実験結果

リサーチクエスチョン

  • RQ1DNNデータフローは、どのようにデータ中心の指示を用いて形式的かつ簡潔に指定できるか?
  • RQ2DNNアクセラレータにおける異なるデータフロー選択がもたらす主なパフォーマンスとエネルギーのトレードオフは何か?
  • RQ3再利用と占有状態の分析的モデリングは、完全なシミュレーションなしに、データフロー効率をどの程度正確に予測できるか?
  • RQ4データフローモデルは、DNNアクセラレータ構成のスケーラブルな設計探索をどの程度効率的に可能にするか?
  • RQ5DNNアクセラレータ設計におけるスループットとエネルギー効率のパレート最適なトレードオフは何か?

主な発見

  • MAESTROは、4億8000万のDNNアクセラレータ設計の探索を効率的に行い、250万の有効な設定を同定できる。
  • フレームワークは平均して1秒あたり0.17百万の設計を探索でき、スケーラブルなDSEを実現した。
  • モデルは、高いスループットと低いエネルギー消費を両立させるパレート最適な設計を的確に同定した。
  • データ中心の指示形式により、データフロー再利用パターンの正確な指定と分析が可能になった。
  • MAESTROによる分析的モデリングは、高精度で主要なパフォーマンスとエネルギーのトレードオフを捉え、高価なシミュレーションへの依存を低減した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。