Skip to main content
QUICK REVIEW

[论文解读] Residual Networks Behave Like Ensembles of Relatively Shallow Networks

Andreas Veit, Michael J. Wilber|arXiv (Cornell University)|May 20, 2016
Advanced Neural Network Applications参考文献 17被引用 600
一句话总结

该论文将残差网络重新表述为由多条不同长度的路径组成的集合,展示它们通过使用短路径进行训练,并且这些路径的行为像一个相互依赖有限的集成;长路径在训练期间对梯度贡献很小。

ABSTRACT

In this work we propose a novel interpretation of residual networks showing that they can be seen as a collection of many paths of differing length. Moreover, residual networks seem to enable very deep networks by leveraging only the short paths during training. To support this observation, we rewrite residual networks as an explicit collection of paths. Unlike traditional models, paths through residual networks vary in length. Further, a lesion study reveals that these paths show ensemble-like behavior in the sense that they do not strongly depend on each other. Finally, and most surprising, most paths are shorter than one might expect, and only the short paths are needed during training, as longer paths do not contribute any gradient. For example, most of the gradient in a residual network with 110 layers comes from paths that are only 10-34 layers deep. Our results reveal one of the key characteristics that seem to enable the training of very deep networks: Residual networks avoid the vanishing gradient problem by introducing short paths which can carry gradient throughout the extent of very deep networks.

研究动机与目标

  • 提出对残差网络的解卷视角,将其表示为多条路径的集合,而非单一的深链。
  • 研究残差网络路径是否独立并呈现类似集成的行为。
  • 确定在训练中哪些路径长度对梯度流动有贡献,以及这如何影响超深网络的训练。

提出的方法

  • 将残差网络解卷,使其显式表达为不同长度的路径集合。
  • 通过删除或重新排序残差块进行病变研究,测试路径的独立性和集成式行为。
  • 分析路径长度分布,显示在n块网络中近似于n/2处的二项分布。
  • 测量来自不同长度路径的梯度流,识别有效的训练路径(短路径)。
  • 仅使用有效路径重新训练网络,以测试长路径对性能的必要性。

实验结果

研究问题

  • RQ1残差网络路径彼此是否强烈依赖,还是表现出冗余性?
  • RQ2残差路径集合是否表现出像集群一样的行为,随着路径的增加或删除性能是否平滑地变化?
  • RQ3在非常深的残差网络中,哪些长度的路径对梯度流动贡献最大?
  • RQ4长路径是否对获得强大性能是必需的,还是可以依赖更短、有效的路径进行训练?

主要发现

  • 在残差网络中删除单个残差模块对性能的影响很小,与传统网络性能崩溃不同。
  • 删除多个模块或重新排序模块导致误差的平滑增加,表明路径集合具有集成式行为。
  • 大多数路径长度遵循二项分布,大多数路径位于网络深度的一半左右;然而训练过程的梯度主要来自较短的路径(在54块网络中大约5–17块)。
  • 较长的路径对梯度贡献很小,并非训练的必需;仅利用有效的较短路径训练的网络在性能上可与完整模型相当。
  • 移除下采样块的影响适中,表明残差网络依赖多条并行路径,而非单一顺序路径。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。