Skip to main content
QUICK REVIEW

[論文レビュー] Beyond Backprop: Alternating Minimization with co-Activation Memory.

Anna Choromanska, Sadhana Kumaravel|arXiv (Cornell University)|Jun 24, 2018
Stochastic Gradient Optimization Techniques被引用数 10
ひとこと要約

本論文は、最適化の安定化のための共活性化メモリを用いた、深層ニューラルネットワークをトレーニングするための新しいオンライン交互最小化(AM)手法を提案する。この手法は、確率的設定におけるAMの理論的収束保証を初めて提示し、多様なアーキテクチャとデータセットにおいて優れた経験的性能を示す。また、勾配消失や生物学的に不実現的な点を含む、誤差逆伝播法の主な限界に対処する。

ABSTRACT

Despite significant recent advances in deep neural networks, training them remains a challenge due to the highly non-convex nature of the objective function. State-of-the-art methods rely on error backpropagation, which suffers from several well-known issues, such as vanishing and exploding gradients, inability to handle non-differentiable nonlinearities and to parallelize weight-updates across layers, and biological implausibility. These limitations continue to motivate exploration of alternative training algorithms, including several recently proposed auxiliary-variable methods which break the complex nested objective function into local subproblems. However, those techniques are mainly offline (batch), which limits their applicability to extremely large datasets, as well as to online, continual or reinforcement learning. The main contribution of our work is a novel online (stochastic/mini-batch) alternating minimization (AM) approach for training deep neural networks, together with the first theoretical convergence guarantees for AM in stochastic settings and promising empirical results on a variety of architectures and datasets.

研究の動機と目的

  • 誤差逆伝播法の限界、すなわち勾配消失/爆発、微分不能な非線形関数、生物学的に現実的でない点を是正すること。
  • 従来の補助変数を用いたAM手法がバッチ処理に依存するのを克服し、オンライン(確率的/ミニバッチ)トレーニング手法を構築すること。
  • 深層ニューラルネットワークにおける確率的設定下での交互最小化の理論的収束保証を初めて提供すること。
  • バッチ処理が不適切なオンライン継続的学習や強化学習のシナリオにおいて、効果的なトレーニングを可能にすること。
  • 層間の依存関係を捉える共活性化メモリ機構を用いて、最適化の安定性と性能を向上させること。

提案手法

  • ミニバッチ設定下で、ネットワーク重みと補助変数を交互に最適化するオンライン交互最小化フレームワークを提案する。
  • 重みの更新をガイドし、最適化の安定性を向上させるために、クロスレイヤーの活性化統計を保存・利用する共活性化メモリ機構を導入する。
  • 重みと補助変数を交互に更新するブロック座標降下法を採用し、複雑なグローバル目的関数を局所的サブ問題に分離する。
  • 過去の共活性化を格納するメモリバッファを用い、誤差逆伝播法なしで長距離依存関係を学習可能にする。
  • やや弱い仮定の下で理論的収束保証を導出し、確率的AMアルゴリズムの期待値における収束を確立する。
  • 勾配逆伝播法に依存せずにエンドツーエンドのトレーニングが可能な微分可能代替目的関数を設計する。

実験結果

リサーチクエスチョン

  • RQ1交互最小化は、深層ネットワークのオンラインおよび確率的トレーニング設定に効果的に適応可能か?
  • RQ2共活性化メモリ機構は、深層学習における最適化の安定性と収束性を向上させるか?
  • RQ3非凸目的関数を伴う確率的設定下での交互最小化に、どのような理論的保証を設定できるか?
  • RQ4多様なアーキテクチャとデータセットにおいて、誤差逆伝播法と比較して、性能と頑健性に優れているか?
  • RQ5バッチ処理が不適切なオンラインおよび継続的学習シナリオに、この手法を適用可能か?

主な発見

  • 提案された共活性化メモリを備えたオンライン交互最小化は、複数の深層学習アーキテクチャとデータセットにおいて、誤差逆伝播法と同等またはそれ以上の性能を達成する。
  • この手法は、勾配逆伝播法に依存せず、勾配消失や爆発の問題を効果的に緩和する、頑健なトレーニング行動を示す。
  • 理論的分析により、標準的な仮定の下で、確率的交互最小化アルゴリズムの期待値における収束を確立した。
  • 経験的結果から、共活性化メモリが最適化の安定性と最終的なモデルの精度を顕著に向上させていることが示された。
  • この手法は、メモリと計算制約によりバッチ手法が失敗するオンラインおよび継続的学習設定にも成功裏に適用可能である。
  • このアプローチにより、層間で並列に重み更新が可能となり、誤差逆伝播法の主な限界を克服した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。