QUICK REVIEW

[論文レビュー] Decoupled Neural Interfaces using Synthetic Gradients

Max Jaderberg, Wojciech Marian Czarnecki|arXiv (Cornell University)|Aug 18, 2016

Advanced Neural Network Applications参考文献 28被引用数 76

ひとこと要約

本論文は、局所的な活性化情報のみを用いて誤差勾配を予測する学習済みモデルである合成勾配（synthetic gradients）を用い、誤反転伝播における逐次的依存関係を解消することで、ニューラルネットワークモジュールの非同期的・独立的学習を可能にする、分離型ニューラルインターフェース（Decoupled Neural Interfaces, DNI）を導入する。主な貢献は、順方向と逆方向の計算を分離することで、フィードフォワードネットワーク、再帰的ネットワーク、階層的ネットワークにおいて、より高速でスケーラブルな学習を可能にすることにある。

ABSTRACT

Training directed neural networks typically requires forward-propagating data through a computation graph, followed by backpropagating error signal, to produce weight updates. All layers, or more generally, modules, of the network are therefore locked, in the sense that they must wait for the remainder of the network to execute forwards and propagate error backwards before they can be updated. In this work we break this constraint by decoupling modules by introducing a model of the future computation of the network graph. These models predict what the result of the modelled subgraph will produce using only local information. In particular we focus on modelling error gradients: by using the modelled synthetic gradient in place of true backpropagated error gradients we decouple subgraphs, and can update them independently and asynchronously i.e. we realise decoupled neural interfaces. We show results for feed-forward models, where every layer is trained asynchronously, recurrent neural networks (RNNs) where predicting one's future gradient extends the time over which the RNN can effectively model, and also a hierarchical RNN system with ticking at different timescales. Finally, we demonstrate that in addition to predicting gradients, the same framework can be used to predict inputs, resulting in models which are decoupled in both the forward and backwards pass -- amounting to independent networks which co-learn such that they can be composed into a single functioning corporation.

研究の動機と目的

深層ニューラルネットワークにおける更新および逆伝播のロック問題に取り組み、学習を逐次的・同期的実行に制限する要因を解消すること。
誤反転伝播を代替する局所的に予測された合成勾配を用いて、ニューラルネットワークモジュールの独立的・非同期的学習を可能にすること。
順方向のロックも解消するため、合成入力を予測する手法を導入することで、順方向および逆方向の両方の計算を完全に分離すること。
深層フィードフォワードネットワーク、長期間依存性を持つRNN、階層的マルチネットワークシステムにおいて、本手法の有効性を実証すること。
同期のボトルネックを排除することで、分散環境やマルチエージェント学習シナリオにおける学習効率の向上とスケーラビリティの向上を達成すること。

提案手法

標準的な誤反転伝播を、局所的な活性化情報のみを用いて誤差勾配を予測する学習済みモデルである合成勾配に置き換える。
モジュールの現在の活性化のみを入力として用い、損失関数に対するモジュール入力に関する真の勾配を予測する、小さなニューラルネットワーク（合成勾配モデル）を学習する。
予測された合成勾配を用いて、下流モジュールの実行や逆伝播の完了を待たずに、即座にモジュールの重みを更新する。
合成入力モデルを導入することで、順方向と逆方向の両方の計算を分離し、完全な非同期学習を可能にする。
実際の勾配または入力と合成勾配・入力との差を最小化する微分可能損失関数を用いて、合成勾配モデルおよび入力モデルをエンドツーエンドで学習する。
共有または異なるアーキテクチャを採用し、フィードフォワードネットワーク、RNN、階層的マルチネットワークシステムに本フレームワークを適用する。

実験結果

リサーチクエスチョン

RQ1合成勾配は、完全な逆伝播に依存せずに、ニューラルネットワークモジュールの非同期的学習を可能にするか？
RQ2合成勾配は、切り捨てられた誤反転伝播（truncated BPTT）によって制限される長さの制限を超えて、RNNにおける有効なシーケンス長をどの程度延長できるか？
RQ3本フレームワークは、順方向の計算も分離できるように拡張可能か？これにより、モジュールの完全な独立的学習が可能になるか？
RQ4合成勾配を用いたモデルの性能は、標準的な誤反転伝播と比較して、精度および学習速度の面でどのように異なるか？
RQ5異なるタイムスケールを持つ複数のエージェントや階層的ニューラルシステムにおいて、合成勾配は学習効率を向上させるか？

主な発見

DNIフレームワークは、各モジュールが合成勾配を用いて独立して更新できるようにすることで、更新および逆伝播のロックを完全に解消した。
フィードフォワードネットワークでは、合成勾配を用いたモデルが、標準的な誤反転伝播と同等の精度を達成しながら、完全な非同期学習を可能にした。
RNNでは、合成勾長が通常の50〜100ステップの制限を超えて、最大1000ステップの長期間依存性をモデル化可能となった。
異なるタイムスケールを持つ階層的RNNシステムでは、合成勾長を用いた高速なネットワークが、同期学習と比較して最大3倍速く学習を完了した。
合成入力モデルにより、順方向および逆方向の両方の計算が完全に分離され、ネットワークが独立して学習し合い、単一の機能的システムに統合可能となった。
本手法は、CIFAR-10におけるCNNやPenn Treebankにおける文字レベル言語モデルなど、多様なアーキテクチャにおいて、最小限のハイパーパrameterチューニングで安定的かつ効果的に機能した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。