QUICK REVIEW

[論文レビュー] Convergence of Online Adaptive and Recurrent Optimization Algorithms

Pierre-Yves Massé, Yann Ollivier|arXiv (Cornell University)|May 12, 2020

Stochastic Gradient Optimization Techniques被引用数 3

ひとこと要約

本稿では、確率的仮定に依存せず、経験的時間平均に基づく統一的な枠組みを用いて、RTRL、NoBackTrack、UORO、RMSProp、およびβ₂→1に近づくAdamなどのオンライン自己適応的・再帰的最適化アルゴリズムの局所収束を確立する。主な貢献は、やや弱い正則性および安定性条件の下で一般化された収束定理を提示し、勾配を有限で循環的なデータセットに対して平均化する場合、これらのアルゴリズムが局所的に収束することを証明することであり、標準的なSGDよりも大きな学習率を許容可能にする。

ABSTRACT

We prove local convergence of several notable gradient descent algorithms used in machine learning, for which standard stochastic gradient descent theory does not apply directly. This includes, first, online algorithms for recurrent models and dynamical systems, such as \emph{Real-time recurrent learning} (RTRL) and its computationally lighter approximations NoBackTrack and UORO; second, several adaptive algorithms such as RMSProp, online natural gradient, and Adam with $\beta^2 o 1$.Despite local convergence being a relatively weak requirement for a new optimization algorithm, no local analysis was available for these algorithms, as far as we knew. Analysis of these algorithms does not immediately follow from standard stochastic gradient (SGD) theory. In fact, Adam has been proved to lack local convergence in some simple situations \citep{j.2018on}. For recurrent models, online algorithms modify the parameter while the model is running, which further complicates the analysis with respect to simple SGD.Local convergence for these various algorithms results from a single, more general set of assumptions, in the setup of learning dynamical systems online. Thus, these results can cover other variants of the algorithms considered.We adopt an "ergodic" rather than probabilistic viewpoint, working with empirical time averages instead of probability distributions. This is more data-agnostic and creates differences with respect to standard SGD theory, especially for the range of possible learning rates. For instance, with cycling or per-epoch reshuffling over a finite dataset instead of pure i.i.d.\ sampling with replacement, empirical averages of gradients converge at rate $1/T$ instead of $1/\sqrt{T}$ (cycling acts as a variance reduction method), theoretically allowing for larger learning rates than in SGD.

研究の動機と目的

標準的な確率的勾配降下法（SGD）理論が適用できないオンライン自己適応的・再帰的最適化アルゴリズムの局所収束を確立すること。
実際の応用で広く用いられているが、局所収束解析が不足しているアルゴリズム（例：Adam、RTRL、NoBackTrack、UORO）の収束性を解消すること。
i.i.d.データサンプリングを仮定しない非i.i.d.データ環境での解析を可能にする、経験的時間平均に基づく統一的理論枠組みを構築すること。
有限データセットのサイクル的またはエポック単位でのシャッフルが、勾配平均の収束速度を1/Tに保つことの意義を示し、i.i.d. SGDにおける1/√Tより大きな学習率を許容可能にすること。
RMSProp やオンライン自然勾配など、自己適応的アルゴリズムを一般化オンライン学習アルゴリズムの特別なケースとして扱い、収束を証明すること。

提案手法

i.i.d.サンプリングにおける期待値ではなく、有限で循環的なデータセット上の勾配の経験的時間平均に基づく「エルゴード的」な視点を採用する。
動的システムに対して、時間平均勾配と制御されたステップサイズによってパラメータを更新する抽象的なオンライン学習アルゴリズムを導入する。
局所最小値θ∗の周囲で収縮を適用し、導関数の有界性と遷移作用素の固有値半径の制御を活用する。
ターゲット軌道の滑らかさと安定性に関する仮定を用いて、状態軌道および損失関数の高階微分の一様有界性を確立する。
ヤコビアンおよびヘッシアンの進化を制御するため、安定なチューブ（tube）を用いたアプローチを導入し、パラメータ更新作用素の有界性と等連続性を保証する。
有限時間の偏差バウンドと区間ごとの誤差の収縮を用いて収束を証明し、安定性と収束速度のバランスを取るためにステップサイズを調整する。

実験結果

リサーチクエスチョン

RQ1RTRLおよびその近似（NoBackTrack、UORO）は、オンラインでi.i.d.でない性質を持つにもかかわらず、局所収束を示せるか？
RQ2β₂→1に近づくAdamは、標準的なSGD設定で失敗するにもかかわらず、局所的に収束するか？
RQ3RMSProp やオンライン自然勾配のような自己適応的アルゴリズムを、i.i.d.仮定を避ける統一的枠組みで解析可能か？
RQ4経験的平均化がサイクル的または再シャッフルされたデータセットに対して、i.i.d.サンプリングと比較して収束速度と学習率の上限にどのような影響を与えるか？
RQ5オンライン再帰的学習において、パラメータ更新が有界であり、局所最小値に向かって収縮するための条件は何か？

主な発見

RTRL、NoBackTrack、UORO、RMSProp、オンライン自然勾配、β₂→1に近づくAdamについて、一組の一般的な仮定のもとで局所収束が証明された。
サイクル的またはエポック単位のシャッフルの下で、経験的勾配平均の収束速度は1/Tであることが示され、i.i.d. SGDにおける1/√Tよりも大きな学習率が許容可能である。
最適軌道の周囲の安定なチューブ上において、状態軌道および損失関数の3階微分の一様有界性が確立された。
正規化行列の2階微分が有界であれば、拡張されたヘッシアンの等連続性が達成され、収束のための重要な技術的条件を満たす。
状態およびヤコビアンの両方の安定なチューブが構築され、最適軌道からの逸脱が時間経過に伴い制御されたままであることが保証された。
不完全なRTRLアルゴリズム（例：NoBackTrack、UORO）でさえ、近似誤差が有界でかつ元のシステムが安定であれば、局所的に収束することが解析で示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。