Skip to main content
QUICK REVIEW

[论文解读] FractalNet: Ultra-Deep Neural Networks without Residuals

Gustav Larsson, Michael Maire|arXiv (Cornell University)|May 24, 2016
Anomaly Detection Techniques and Applications参考文献 34被引用 618
一句话总结

FractalNet 提出了一种自相似的分形宏架构用于超深网络,未使用残差连接,在 CIFAR 和 ImageNet 上的性能与 ResNet 相当,并引入 drop-path 作为正则化以实现高深度子网络和 anytime 预测。

ABSTRACT

We introduce a design strategy for neural network macro-architecture based on self-similarity. Repeated application of a simple expansion rule generates deep networks whose structural layouts are precisely truncated fractals. These networks contain interacting subpaths of different lengths, but do not include any pass-through or residual connections; every internal signal is transformed by a filter and nonlinearity before being seen by subsequent layers. In experiments, fractal networks match the excellent performance of standard residual networks on both CIFAR and ImageNet classification tasks, thereby demonstrating that residual representations may not be fundamental to the success of extremely deep convolutional neural networks. Rather, the key may be the ability to transition, during training, from effectively shallow to deep. We note similarities with student-teacher behavior and develop drop-path, a natural extension of dropout, to regularize co-adaptation of subpaths in fractal architectures. Such regularization allows extraction of high-performance fixed-depth subnetworks. Additionally, fractal networks exhibit an anytime property: shallow subnetworks provide a quick answer, while deeper subnetworks, with higher latency, provide a more accurate answer.

研究动机与目标

  • 明确在训练超深 CNN 时,显式的残差连接是否必要。
  • 提出一个自相似的分形宏架构,将多条子路径交错但不通过信号直通地连接在一起。
  • 引入 drop-path 正则化以防止协同适应并实现高性能的子网络。
  • 证明分形网络在 CIFAR、SVHN 和 ImageNet 上可以达到与 ResNet 相当的性能,并展示 anytime 行为。
  • 探讨分形网络与深度监督、师生学习等概念之间的联系。

提出的方法

  • 定义 f_C 为带有展开规则的截断分形:f_{C+1}(z) = [(f_C ∘ f_C)(z)] ⊕ [conv(z)]。
  • 使用连接层 ⊕ 从并行子路径输入进行平均(逐元素均值)并确保没有路径直通或特权残差信号。
  • 通过 drop-path 进行正则化:局部或全局地抑制连接层的输入,使至少保留一条路径;局部与全局采样的混合鼓励多样化的子网络。
  • 用 SGD(带动量)和批量归一化进行训练;使用 Xavier 初始化;对数据进行不同等级的数据增强(+,++)。
  • 证明可以从分形网络中提取一个普通的单列子网络,作为高性能的子网络。
  • 研究 anytime 行为,其中浅层子网络提供快速预测,深层子网络提高准确性。

实验结果

研究问题

  • RQ1是否需要显式的残差学习机制来训练超深 CNN,还是自相似的分形架构能达到类似的性能?
  • RQ2drop-path 正则化如何影响训练、泛化以及分形网络中高性能子网络的出现?
  • RQ3分形网络是否能够通过利用多深度路径而不需要残差连接来实现 anytime 预测?
  • RQ4分形网络与深度监督、深度架构中的师生学习等现象之间有哪些联系?

主要发现

  • FractalNet 在 CIFAR 和 ImageNet 上的性能可与 ResNet 相提并论,甚至在某些设置下未进行数据增强(如 CIFAR 的结果接近 ResNet 基准)。
  • 在数据增强下,ImageNet 上 FractalNet-34 的 Top-1 错误率为 24.12%(对比 ResNet-34 的 24.19%)。
  • 分形网络的深度扩展可以提升精度;非常深的配置(如 40/80/160)维持或提升性能,而普通的深度网络往往难以收敛。
  • Drop-path 正则化显著提升 CIFAR-100 的结果(如从 35.34% 提升到 28.20% 的错误率),并使得提取出强大的子网络成为可能,包括单列的普通网络。
  • FractalNet 实现了 anytime 行为:浅层子网络提供快速且相对准确的预测,而更深的子网络提供更高的准确性。
  • 提取出的更深子网络在性能上可与其完整的分形网络相当,说明分形框架是一个有效的训练引擎与架构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。