QUICK REVIEW

[論文レビュー] GDP: Generalized Device Placement for Dataflow Graphs

Yanqi Zhou, Sudip Roy|arXiv (Cornell University)|Sep 28, 2019

Ferroelectric and Negative Capacitance Devices参考文献 21被引用数 25

ひとこと要約

本稿では、順序付きアテンションとスーパーポジションベースのファインチューニングを備えたスケーラブルなグラフニューラルネットワークを用いた、データフロー・グラフにおける一般化されたデバイス配置手法GDPを提案する。本手法は人間の専門家に比べ16%高速な推論を達成し、先行研究に比べ9.2%の向上を示す。収束が15倍速く、8層のGNMTのような大規模モデルを含む未学習のグラフに対しても優れた汎化性能を示す。

ABSTRACT

Runtime and scalability of large neural networks can be significantly affected by the placement of operations in their dataflow graphs on suitable devices. With increasingly complex neural network architectures and heterogeneous device characteristics, finding a reasonable placement is extremely challenging even for domain experts. Most existing automated device placement approaches are impractical due to the significant amount of compute required and their inability to generalize to new, previously held-out graphs. To address both limitations, we propose an efficient end-to-end method based on a scalable sequential attention mechanism over a graph neural network that is transferable to new graphs. On a diverse set of representative deep learning models, including Inception-v3, AmoebaNet, Transformer-XL, and WaveNet, our method on average achieves 16% improvement over human experts and 9.2% improvement over the prior art with 15 times faster convergence. To further reduce the computation cost, we pre-train the policy network on a set of dataflow graphs and use a superposition network to fine-tune it on each individual graph, achieving state-of-the-art performance on large hold-out graphs with over 50k nodes, such as an 8-layer GNMT.

研究の動機と目的

大規模で複雑なニューラルネットワークアーキテクチャにおける、異種ハードウェア向けの効率的でスケーラブルなデバイス配置の課題に対処すること。
各グラフに対して再訓練が必要で、汎化性能に欠ける、先行の強化学習ベースの手法の限界を克服すること。
再訓練なしで、これまでにないデータフロー・グラフに一般化可能な、転送可能なエンドツーエンドのデバイス配置ポリシーを可能にすること。
ポリシー探索の計算コストを削減しながら、多様なワークロードにおいて配置品質を維持または向上させること。
50,000ノード以上のスケールのグラフにおいて、最小限のファインチューニングと高速な収束で最先端のパフォーマンスを達成すること。

提案手法

操作の特徴と依存関係をトレーニング可能なグラフ表現に変換するためのグラフ埋め込みネットワークを採用する。
改善されたTransformerを用いたスケーラブルなシーケンス・ツー・シーケンス配置ネットワークを活用し、ノードレベルでのデバイス割り当てを生成する。
入力グラフ埋め込みに条件付けられたスーパーポジションネットワークを導入し、サイズが著しく異なるグラフのバッチ学習を効果的に行えるようにする。
複雑なマルチレベル損失調整を不要とする、教師あり報酬信号を用いてポリシーをエンドツーエンドで訓練する。
事前学習とファインチューニングの戦略を実装：多様なグラフで事前学習を行い、個々のグラフでスーパーポジションを用いてファインチューニングすることで収束を加速する。
アテンション機構による柔軟なノード単位の配置意思決定を学習することで、明示的な階層的グループ化やコロケーションヒューリスティクスの必要性を排除する。

実験結果

リサーチクエスチョン

RQ1深層強化学習ベースのデバイス配置ポリシーは、再訓練なしで、これまでにない多様なデータフロー・グラフに一般化可能か？
RQ2グラフニューラルネットワークにおけるスケーラブルな順序付きアテンション機構は、階層的またはLSTMベースのコントローラーと比較して、配置品質と収束速度をどのように向上させるか？
RQ3サイズが著しく異なるグラフを処理する際、スーパーポジションベースのバッチ学習は最適化の安定性とパフォーマンスをどの程度向上させるか？
RQ4事前学習済みのグラフ埋め込みとポリシーは、2層のRNNLM や 2スタックのWaveNet など、大規模なホールドアウトグラフ（例：8層GNMT）において、最小限のファインチューニングで高品質な配置を達成可能か？
RQ5本手法は、人間の専門家やHDP や Placeto といった先行の最先端手法と比較して、パフォーマンスと効率性においてどの程度優れているか？

主な発見

GDPは、Inception-v3、AmoebaNet、WaveNet を含む多様なモデルにおいて、人間の専門家による配置に比べ、平均して16%のエンドツーエンドステップ時間の短縮を達成した。
本手法は、先行研究（HDP）に比べステップ時間で9.2%の改善を示し、同時に先行のRLベース手法に比べポリシー探索時間を15倍短縮した。
ホールドアウトされたグラフ（GDP-generalization+finetune）に対して事前学習モデルをファインチューニングした結果、全6つのテストグラフで人間の専門家とHDPを上回った。2層RNNLM と 2スタックWaveNet では、GDP-one と同等のパフォーマンスを達成した。
事前学習モデルを用いたゼロショット推論（GDP-generalization-zeroshot）は、ファインチューニング推論とほぼ同等の性能を示し、グラフ埋め込みとポリシーの優れた転送性を実証した。
アブレーションスタディの結果、アテンションは実行時間を18%改善し、スーパーポジションは平均で6.5%のパフォーマンス向上をもたらした。特に、サイズが異なる混合グラフにおける安定した学習にはスーパーポジションが不可欠であることが示された。
事前学習後のファインチューニングにより、学習から再開する場合（GDP-one）と比較して、探索時間を86%削減し、平均で5%の実行時間の改善が得られた。これにより、事前学習とファインチューニングのパイプラインの有効性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。