QUICK REVIEW

[論文レビュー] Beyond Backprop: Online Alternating Minimization with Auxiliary Variables

Anna Choromanska, Benjamin Cowen|arXiv (Cornell University)|Jun 24, 2018

Stochastic Gradient Optimization Techniques被引用数 33

ひとこと要約

本稿では、バックプロパゲーションの勾配連鎖則を回避するため、補助変数を用いた、新しいオンライン（確率的／ミニバッチ）交互最小化（AM）手法を提案する。本手法は、確率的設定におけるAMの理論的収束保証を初めて提供し、MNIST、CIFAR-10、HIGGSのデータセットで競争力ある精度を達成しており、SGDやAdamと同等の実行時間を持つ。

ABSTRACT

Despite significant recent advances in deep neural networks, training them remains a challenge due to the highly non-convex nature of the objective function. State-of-the-art methods rely on error backpropagation, which suffers from several well-known issues, such as vanishing and exploding gradients, inability to handle non-differentiable nonlinearities and to parallelize weight-updates across layers, and biological implausibility. These limitations continue to motivate exploration of alternative training algorithms, including several recently proposed auxiliary-variable methods which break the complex nested objective function into local subproblems. However, those techniques are mainly offline (batch), which limits their applicability to extremely large datasets, as well as to online, continual or reinforcement learning. The main contribution of our work is a novel online (stochastic/mini-batch) alternating minimization (AM) approach for training deep neural networks, together with the first theoretical convergence guarantees for AM in stochastic settings and promising empirical results on a variety of architectures and datasets.

研究の動機と目的

勾配消失、微分不能な非線形性、生物学的に不自然な点といったバックプロパゲーションの限界を解消する。
主にオフライン（バッチ）であり、オンラインまたは継続的学習に不適切な、既存の補助変数手法の制約を克服する。
バックプロパゲーションなしで層ごと、局所的な重み更新が可能な、メモリ効率の良いオンライン確率的交互最小化フレームワークを開発する。
オンライン（ミニバッチ）設定における交互最小化の理論的収束保証を初めて提供する。
全結合ネットワークやMNIST・CIFAR-10におけるLeNet-5を含む、多様なアーキテクチャとデータセットにおいて、実験的有効性を示す。

提案手法

各層に補助変数を導入し、深層ネットワークのネストされた目的関数を局所的サブ問題に分解することで、重みと活性化の間で交互に最適化を可能にする。
2つの変種を提案：AM-Adam（重みの適応的勾配更新を用いる）、AM-mem（Mairalら、2009年のオンライン辞書学習にインspiredされた代替目的関数を用いる）。
交互最適化を実行：まず固定された重みに対して補助変数（活性化）を更新し、次に局所的情報を用いて全層の重みを並列に更新する。
ミニバッチの確率的更新を用いることでオンライン学習を可能にし、全バッチ計算を回避し、大規模データセットへのスケーラビリティを実現する。
ラグランジュ乗数を避けることで、標準のSGDと同等のメモリ使用量に抑えつつ、局所的かつ生物学的に現実的な更新の利点を維持する。
最適化問題を定式化し、重みの更新が局所信号と現在の層の活性化にのみ依存するようにすることで、計算的および生物学的現実性を向上させる。

実験結果

リサーチクエスチョン

RQ1補助変数を用いた交互最小化を、オンラインで確率的（ミニバッチ）な設定に適応させ、継続的かつスケーラブルな深層学習を可能にすることができるか？
RQ2提案されたオンラインAM手法は確率的設定で収束するか？理論的保証を確立できるか？
RQ3AM手法の性能は、Adam や SGD といった標準的なバックプロパゲーションベースの手法と比較して、異なるアーキテクチャやデータセットでどのように異なるか？
RQ4バックプロパゲーションに依存せずに、微分不能な非線形性を扱い、勾配消失問題を回避できるか？
RQ5本手法の計算効率とメモリ使用量は、既存のバックプロパゲーションおよび補助変数ベースラインと比較してどの程度か？

主な発見

提案されたオンラインAM手法は、バックプロパゲーションを回避しながらも、全結合ネットワークを用いてMNISTで97.8％のテスト精度を達成し、Adam や SGD と同等の性能を示した。
CIFAR-10では、AM-Adamが1層あたり500ユニットで87.2％の精度を達成し、SGDを上回り、最適なハイパーパramータ設定下でAdamと同等の性能を示した。
HIGGSデータセットでは、AM-Adamは同じ学習率とアーキテクチャでAdamと同等の70.1％の精度を達成し、高次元で現実世界のデータに対して高いロバストネスを示した。
実行時間の測定結果から、AM-AdamはAdamやSGDとほぼ同等の性能を示している（例：LeNet-5/MNISTで450ミニバッチで443秒）ことから、計算上の実現可能性が裏付けられた。
本手法は確率的設定で収束を示し、形式的な理論的保証が提供された。これは、オンライン深層学習における交互最小化の理論的収束保証を初めて得た結果である。
AM-memとAM-Adamの2つの変種は、複数の重み初期化およびデータセットにおいて一貫した性能を示し、ベースライン手法と比較してハイパーパramータへの感受性が低かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。