Skip to main content
QUICK REVIEW

[论文解读] Training Very Deep Networks

Rupesh K. Srivastava, Klaus Greff|arXiv (Cornell University)|Jul 22, 2015
Advanced Neural Network Applications参考文献 23被引用 1,100
一句话总结

本文提出高速公路网络(highway networks),一种具有可学习门控单元的深度残差架构,可实现数百层网络中无阻碍的信息流动。通过采用受LSTM启发的自适应门控机制,模型可直接通过标准随机梯度下降进行训练,从而克服极深网络中的梯度消失问题。

ABSTRACT

Theoretical and empirical evidence indicates that the depth of neural networks is crucial for their success. However, training becomes more difficult as depth increases, and training of very deep networks remains an open problem. Here we introduce a new architecture designed to overcome this. Our so-called highway networks allow unimpeded information flow across many layers on information highways. They are inspired by Long Short-Term Memory recurrent networks and use adaptive gating units to regulate the information flow. Even with hundreds of layers, highway networks can be trained directly through simple gradient descent. This enables the study of extremely deep and efficient architectures.

研究动机与目标

  • 解决由于梯度消失和优化困难导致的极深神经网络训练挑战。
  • 设计一种可实现数百层网络稳定高效训练的网络架构。
  • 引入一种通过自适应门控实现层间无阻碍信息流动的机制。
  • 通过标准反向传播无需残差快捷连接或跳跃连接,直接训练极深架构。

提出的方法

  • 引入具有可学习门控单元的高速公路网络,以控制层间信息流动。
  • 采用类似于LSTM的门控机制,其中门控决定有多少输入以不变形式传递。
  • 将变换定义为线性变换与门控身份跳跃连接的组合:H(x) = x * T(x) + H(x) * (1 - T(x)),其中T(x)为变换门控。
  • 采用标准反向传播和随机梯度下降进行端到端训练,无需架构修改。
  • 在多个堆叠层中应用高速公路单元,实现具有残差类似行为的深度架构。

实验结果

研究问题

  • RQ1能否使用标准优化方法有效训练具有数百层的极深神经网络?
  • RQ2如何在数百层中保持信息流动以防止梯度消失?
  • RQ3自适应门控机制能否替代或优于残差连接,以实现深度网络训练?
  • RQ4与标准深度网络相比,高速公路网络在基准任务上的性能和稳定性如何?

主要发现

  • 高速公路网络成功使用标准随机梯度下降在无残差快捷连接的情况下训练了超过100层的网络。
  • 该架构即使在极深情况下也表现出稳定的训练动态,证明了对梯度消失问题的鲁棒性。
  • 该模型在图像分类任务中保持了高性能,表明通过所提出的门控机制可有效训练深度架构。
  • 自适应门控的使用实现了高效的信息流动,使网络能够在不退化的情况下学习复杂表征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。