QUICK REVIEW

[论文解读] Architectural Complexity Measures of Recurrent Neural Networks

Saizheng Zhang, Yuhuai Wu|arXiv (Cornell University)|Feb 26, 2016

Adversarial Robustness in Machine Learning参考文献 22被引用 111

一句话总结

该论文为循环神经网络架构引入一个图论框架，并定义三种复杂度量——循环深度、前馈深度和循环跳跃系数——并给出理论性质与经验证据，表明更深的循环与前馈通道以及更高的跳跃系数可以提升序列任务的性能。

ABSTRACT

In this paper, we systematically analyze the connecting architectures of recurrent neural networks (RNNs). Our main contribution is twofold: first, we present a rigorous graph-theoretic framework describing the connecting architectures of RNNs in general. Second, we propose three architecture complexity measures of RNNs: (a) the recurrent depth, which captures the RNN's over-time nonlinear complexity, (b) the feedforward depth, which captures the local input-output nonlinearity (similar to the "depth" in feedforward neural networks (FNNs)), and (c) the recurrent skip coefficient which captures how rapidly the information propagates over time. We rigorously prove each measure's existence and computability. Our experimental results show that RNNs might benefit from larger recurrent depth and feedforward depth. We further demonstrate that increasing recurrent skip coefficient offers performance boosts on long term dependency problems.

研究动机与目标

提供一个严谨的基于图的 RNN 连接架构表述。
定义并证明在一般框架下存在性与可计算性的架构复杂度度量（循环深度、前馈深度、循环跳跃系数）。
在序列任务上经验证不同深度与跳跃系数对性能的影响。
说明更大的循环深度和前馈深度在某些任务中可以提升性能，但深度过大可能带来负面影响，以及更高的跳跃系数有助于长程依赖。

提出的方法

将 RNN 连接架构建模为带权有向多图（RNN 循环图）及其时展开的有向无环图（RNN 展开图）。
将循环深度 d_r 定义为通过最大循环比率 l(θ)/σ_s(θ) 的每时间步非线性变换的渐近平均数。
将前馈深度 d_f 定义为从输入到输出路径上 D*_i(n) − n·d_r 的上确界，可表示为最大路径 l(γ) − σ_s(γ)·d_r。
将循环跳跃系数 s 定义为在所有循环中最小长期路径增长 j = min_θ l(θ)/σ_s(θ) 的倒数，即 s = 1/j。
在一般框架下证明 d_r、d_f 与 s 的存在性和可计算性。
在如 Penn Treebank 字符级建模、text8、记忆添加与复制问题，以及序列 MNIST 等任务上对具有不同 d_r、d_f 和 s 的架构进行经验比较。

实验结果

研究问题

RQ1循环深度是否捕捉到了超越传统深度概念的有意义的随时间的非线性？
RQ2循环深度和前馈深度的增加是否在序列任务上提升性能，且是否存在最优区间？
RQ3提高循环跳跃系数是否有助于学习长程依赖？
RQ4这些结构性度量与RNN优化困难之间有何关系？

主要发现

循环深度 d_r 在同一层数的不同架构之间可能不同；更深的循环结构会带来不同的长期非线性增长。
增加 d_r 与 d_f 可以在某些任务上提升性能（例如 text8 的 tanh RNNs 与 LSTMs），但过大的 d_r 或 d_f 也可能损害优化与在其他任务上的性能（如序列 MNIST）。
显著提升循环跳跃系数 s 能在处理长期依赖任务（如 add 与 copy 记忆问题以及序列 MNIST）上带来性能提升，且常胜过基线和可比模型。
增加有效循环跳跃系数的跳跃连接（并非所有跳跃连接都同样有益）能够带来显著收益，强调在设计跳跃时考虑 s 的重要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。