QUICK REVIEW

[論文レビュー] Conducting Credit Assignment by Aligning Local Representations

Alexander G. Ororbia, Ankur Mali|arXiv (Cornell University)|Mar 5, 2018

Domain Adaptation and Few-Shot Learning参考文献 38被引用数 24

ひとこと要約

この論文では、各層の出力を自身の表現能力に基づくターゲットに一致させることで、バックプロパゲーションに依存せずに深層ニューラルネットワークを安定して学習する、ローカル表現アライメント（LRA）という信用配分手法を提案する。LRAはゼロ初期化や微分不能な活性化関数に対しても成功し、MNISTおよびFashion-MNISTにおいてバックプロパゲーション、ターゲット伝播、フィードバックアライメントを上回る性能を発揮するとともに、生物学的にインspiredされた離散的または確率的ユニットの学習を可能にする。

ABSTRACT

Using back-propagation and its variants to train deep networks is often problematic for new users. Issues such as exploding gradients, vanishing gradients, and high sensitivity to weight initialization strategies often make networks difficult to train, especially when users are experimenting with new architectures. Here, we present Local Representation Alignment (LRA), a training procedure that is much less sensitive to bad initializations, does not require modifications to the network architecture, and can be adapted to networks with highly nonlinear and discrete-valued activation functions. Furthermore, we show that one variation of LRA can start with a null initialization of network weights and still successfully train networks with a wide variety of nonlinearities, including tanh, ReLU-6, softplus, signum and others that may draw their inspiration from biology. A comprehensive set of experiments on MNIST and the much harder Fashion MNIST data sets show that LRA can be used to train networks robustly and effectively, succeeding even when back-propagation fails and outperforming other alternative learning algorithms, such as target propagation and feedback alignment.

研究の動機と目的

消失／爆発勾配による深層ネットワークにおけるバックプロパゲーションの不安定性を解消すること。
アーキテクチャの変更や微分可能関数を必要としない学習アルゴリズムの開発。
生物学的ニューロン系にインspiredされた、微分不能または離散値をとるユニットを含むネットワークの学習を可能にすること。
局所的表現アライメントに基づいて、動的に学習深度を調整する信用配分メカニズムの提供。
標準的手法が失敗する状況でも効果を発揮するバックプロパゲーションの代替手法を提供すること。

提案手法

LRAは各層を、自身の出力空間の可能性に基づくターゲット表現を持つものとみなすことで、現実的かつ効果的な更新を保証する。
各層における誤差信号を計算するための局所的損失関数を用い、ターゲットは上位層からのフィードバックを組み込んだ変更された入力に活性化関数を適用した結果として定義される。
微分可能なネットワークでは、微分積分学を用いた勾配ベースの更新を適用する。微分不能ユニットの場合は、固定された誤差フィードバック行列を用いたフィードバックアライメントの変種を採用する。
再帰的ネットワークは時刻ステップごとに展開され、各ステップの部分グラフにLRAを適用することで、時間方向のバックプロパゲーションなしにRNNを学習可能にする。
隠れ層のターゲットは $\mathbf{y}^{1}_{z,t} = \phi(\mathbf{h}^{1}_{t} - \beta(E\mathbf{e}^{2}_{t}))$ として計算され、ここで $\mathbf{e}^{2}_{t}$ は出力層での誤差、$E$ は固定されたフィードバック行列である。
パラメータ更新は $\Delta U = \sum_{t=1}^{T} \mathbf{e}^{2}_{t}(\mathbf{z}^{1}_{t})^T$ として計算され、$W$ や $V$ に対しても同様の形をとる。この更新には局所的誤差微分と活性化関数の勾配が使用される。

実験結果

リサーチクエスチョン

RQ1ゼロ初期化や不良な初期化下でも安定する信用配分手法を設計できるか？
RQ2アーキテクチャの変更なしに、微分不能または離散値をとる活性化関数を用いて深層ネットワークを効果的に学習できるか？
RQ3非線形性にかかわらず、深層アーキテクチャにおいて消失勾配問題を回避できる学習アルゴリズムは存在するか？
RQ4LRAのフィードバックベースの変種は、バックプロパゲーションやフィードバックアライメントと同等またはそれ以上の学習速度と安定性を達成できるか？
RQ5LRAは局所的表現アライメントに基づいて、信用配分の深さを動的に調整できるか？

主な発見

LRAはバックプロパゲーションやターゲット伝播が完全に失敗するゼロ初期化からもネットワークを正常に学習できる。
MNISTおよびFashion-MNISTにおいて、LRAはバックプロパゲーション、ターゲット伝播、フィードバックアライメントを上回る性能を発揮し、特に深層または高非線形性を持つアーキテクチャで顕著である。
LRAのフィードバックベースの変種（LRA-fdbk）は、微分可能なネットワークをバックプロパゲーションと同等の速度で学習可能だが、初期化への感受性が著しく低い。
LRAは符号関数やベルヌーイサンプリングといった離散値をとる活性化関数を含むネットワークの学習を可能にし、これは標準的なバックプロパゲーションでは不可能である。
LRAはシーケンスを展開することで再帰的ネットワークに適用可能であり、時間ステップごとに同一のアライメント原理を適用することで計算の tractability を維持する。
この手法は時間の経過とともに、顕著な更新を受ける層の数を動的に減少させ、後段階では主に上位層が活発に学習されるようになる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。