Skip to main content
QUICK REVIEW

[论文解读] Stochastic Gradient Descent Learns State Equations with Nonlinear Activations

Samet Oymak|arXiv (Cornell University)|Sep 9, 2018
Machine Learning and ELM被引用 24
一句话总结

该论文证明,在激活函数满足较弱条件(例如,Leaky ReLU)且样本复杂度接近最优 $\mathcal{O}(n + p)$ 的前提下,随机梯度下降(SGD)在线性收敛于由非线性状态方程 $\bm{h}_{t+1} = \phi(\bm{A}\bm{h}_t + \bm{B}\bm{u}_t)$ 描述的循环神经网络(RNNs)的真实权重矩阵。该分析依赖于具有非线性激活函数的新型 SGD 收敛保证,以及对状态向量协方差结构的统计表征。

ABSTRACT

We study discrete time dynamical systems governed by the state equation $h_{t+1}=\\phi(Ah_t+Bu_t)$. Here $A,B$ are weight matrices, $\\phi$ is an activation function, and $u_t$ is the input data. This relation is the backbone of recurrent neural networks (e.g. LSTMs) which have broad applications in sequential learning tasks. We utilize stochastic gradient descent to learn the weight matrices from a finite input/state trajectory $(u_t,h_t)_{t=0}^N$. We prove that SGD estimate linearly converges to the ground truth weights while using near-optimal sample size. Our results apply to increasing activations whose derivatives are bounded away from zero. The analysis is based on i) a novel SGD convergence result with nonlinear activations and ii) careful statistical characterization of the state vector. Numerical experiments verify the fast convergence of SGD on ReLU and leaky ReLU in consistence with our theory.

研究动机与目标

  • 理论理解在具有非线性激活函数的循环神经网络(RNNs)训练中,SGD 的收敛行为。
  • 为学习 RNN 状态转移矩阵和输入权重矩阵的 SGD 建立快速(线性)收敛保证。
  • 表征由非线性激活函数控制的动力系统中状态向量的统计特性。
  • 证明学习所需轨迹长度为近似最优,稳定系统下其规模为 $\mathcal{O}(n + p)$。
  • 通过从多个独立轨迹中收集数据,将结果扩展至不稳定系统。

提出的方法

  • 将 RNN 状态方程表述为 $\bm{h}_{t+1} = \phi(\bm{A}\bm{h}_t + \bm{B}\bm{u}_t)$,其中激活函数 $\phi$ 为非线性。
  • 使用随机梯度下降(SGD)从有限的输入/状态轨迹 $\{\bm{u}_t, \bm{h}_t\}_{t=0}^N$ 中学习 $\bm{A}$ 和 $\bm{B}$。
  • 在非线性激活条件下建立新型 SGD 收敛结果,扩展了经典的线性收敛理论。
  • 分析状态向量 $\bm{h}_t$ 的统计特性,表明在较弱假设下其协方差是条件良好的。
  • 证明当系统稳定且 $\phi$ 为单调递增且其导数远离零时,样本量 $N = \mathcal{O}(n + p)$ 足够实现线性收敛。
  • 通过从多个独立轨迹中收集数据,将结果扩展至不稳定系统。

实验结果

研究问题

  • RQ1在具有非线性激活函数的 RNN 中,SGD 是否线性收敛于真实权重矩阵?
  • RQ2SGD 在学习 RNN 状态方程时实现线性收敛所需的最小样本量是多少?
  • RQ3状态向量 $\bm{h}_t$ 的统计特性如何影响非线性 RNN 中 SGD 的收敛性?
  • RQ4该理论能否扩展至不稳定系统?若可,需满足何种数据收集假设?
  • RQ5像 Leaky ReLU 这类激活函数如何影响此设定下 SGD 的收敛速度?

主要发现

  • 对于导数远离零的单调递增非线性激活函数,SGD 线性收敛于 RNN 的真实权重矩阵 $\bm{A}$ 和 $\bm{B}$。
  • 实现线性收敛所需的样本量为 $\mathcal{O}(n + p)$,该值接近最优,其中 $n$ 和 $p$ 分别为状态向量和输入向量的维度。
  • 对于稳定系统($\bm{A}$ 的谱范数小于 1),在长度为 $\mathcal{O}(n + p)$ 的单一轨迹下,理论成立。
  • 分析表明,状态向量的协方差是条件良好的,这对 SGD 收敛至关重要。
  • 对于不稳定系统,当从多个独立轨迹中收集数据时,可实现线性收敛。
  • 数值实验表明,随着激活函数(如 Leaky ReLU)斜率的增大,SGD 收敛速度加快,与理论预测一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。