QUICK REVIEW

[論文レビュー] Stochastic Gradient Descent Learns State Equations with Nonlinear Activations

Samet Oymak|arXiv (Cornell University)|Sep 9, 2018

Machine Learning and ELM被引用数 24

ひとこと要約

本稿では、活性化関数にやや厳しい条件（例：leaky ReLU）を満たす非線形状態方程式 $\bm{h}_{t+1} = \phi(\bm{A}\bm{h}_t + \bm{B}\bm{u}_t)$ に従う再帰的ニューラルネットワーク（RNN）において、確率的勾配降下法（SGD）が真の重み行列に対して線形収束することを確立している。この収束は、$n$ および $p$ がそれぞれ状態および入力次元である場合、近似的に最適なサンプル複雑度 $\mathcal{O}(n + p)$ で達成される。分析は、非線形活性化関数を伴うSGD収束保証の新規な結果と、状態ベクトルの共分散構造の統計的特徴付けに依拠している。

ABSTRACT

We study discrete time dynamical systems governed by the state equation $h_{t+1}=\\phi(Ah_t+Bu_t)$. Here $A,B$ are weight matrices, $\\phi$ is an activation function, and $u_t$ is the input data. This relation is the backbone of recurrent neural networks (e.g. LSTMs) which have broad applications in sequential learning tasks. We utilize stochastic gradient descent to learn the weight matrices from a finite input/state trajectory $(u_t,h_t)_{t=0}^N$. We prove that SGD estimate linearly converges to the ground truth weights while using near-optimal sample size. Our results apply to increasing activations whose derivatives are bounded away from zero. The analysis is based on i) a novel SGD convergence result with nonlinear activations and ii) careful statistical characterization of the state vector. Numerical experiments verify the fast convergence of SGD on ReLU and leaky ReLU in consistence with our theory.

研究の動機と目的

再帰的ニューラルネットワーク（RNN）における非線形活性化関数を伴うSGDの収束を理論的に理解すること。
RNNの状態遷移行列および入力重み行列を学習するSGDに対して、高速（線形）収束保証を確立すること。
非線形活性化関数に従う動的システムにおける状態ベクトルの統計的性質を特徴付けること。
学習に必要な軌道長が、安定系において $\mathcal{O}(n + p)$ のスケーリングを示す近似的に最適であることを示すこと。
複数の独立した軌道からのデータ収集を用いて、結果を不安定系へと拡張すること。

提案手法

非線形活性化 $\phi$ を用いて、RNN状態方程式を $\bm{h}_{t+1} = \phi(\bm{A}\bm{h}_t + \bm{B}\bm{u}_t)$ として定式化する。
有限な入力／状態軌道 $\{\bm{u}_t, \bm{h}_t\}_{t=0}^N$ から、確率的勾配降下法（SGD）を用いて $\bm{A}$ および $\bm{B}$ を学習する。
非線形活性化関数を伴うSGD収束に関する新規な結果を確立し、古典的な線形収束理論を拡張する。
状態ベクトル $\bm{h}_t$ の統計的性質を分析し、やや厳しい仮定のもとでその共分散が適切に条件付けられていることを示す。
システムが安定でかつ $\phi$ が微分が0から離れている単調増加関数である場合、サンプルサイズ $N = \mathcal{O}(n + p)$ が線形収束を保証する。
複数の独立した軌道からのデータ収集により、不安定系に対しても結果を拡張する。

実験結果

リサーチクエスチョン

RQ1非線形活性化関数を伴うRNNにおけるSGDは、真の重み行列に対して線形収束するか？
RQ2RNN状態方程式を学習するSGDが線形収束に到達するための最小サンプルサイズは何か？
RQ3状態ベクトル $\bm{h}_t$ の統計的性質は、非線形RNNにおけるSGD収束にどのように影響するか？
RQ4理論を不安定系へ拡張できるか。その場合、データ収集にどのような仮定が必要か？
RQ5leaky ReLU などの活性化関数は、この設定におけるSGDの収束速度にどのように影響するか？

主な発見

微分が0から離れている単調増加関数である非線形活性化関数を伴うRNNにおいて、SGDは真の重み行列 $\bm{A}$ および $\bm{B}$ に対して線形収束する。
線形収束に必要なサンプルサイズは $\mathcal{O}(n + p)$ であり、これは近似的に最適である。ここで $n$ および $p$ はそれぞれ状態ベクトルおよび入力ベクトルの次元である。
安定系（$\bm{A}$ のスペクトルノルムが1未満）では、長さ $\mathcal{O}(n + p)$ の単一の軌道で理論が成立する。
分析により、状態ベクトルの共分散が適切に条件付けられていることが示され、これはSGD収束にとって極めて重要である。
不安定系では、複数の独立した軌道からのデータ収集により、線形収束が達成される。
数値実験により、活性化関数の勾配（例：leaky ReLU）が大きくなるほどSGDの収束が速くなることが確認され、理論的予測と整合的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。