Skip to main content
QUICK REVIEW

[论文解读] Swapout: Learning an ensemble of deep architectures

Saurabh Singh, Derek Hoiem|arXiv (Cornell University)|May 20, 2016
Advanced Neural Network Applications参考文献 18被引用 105
一句话总结

Swapout 是一种随机训练方法,将 dropout 和随机深度泛化为在单元和层级采样一个架构集合,从而在相同深度的 ResNet 上提高准确性,并使非常宽、较浅的网络达到与深层模型相近的性能。

ABSTRACT

We describe Swapout, a new stochastic training method, that outperforms ResNets of identical network structure yielding impressive results on CIFAR-10 and CIFAR-100. Swapout samples from a rich set of architectures including dropout, stochastic depth and residual architectures as special cases. When viewed as a regularization method swapout not only inhibits co-adaptation of units in a layer, similar to dropout, but also across network layers. We conjecture that swapout achieves strong regularization by implicitly tying the parameters across layers. When viewed as an ensemble training method, it samples a much richer set of architectures than existing methods such as dropout or stochastic depth. We propose a parameterization that reveals connections to exiting architectures and suggests a much richer set of architectures to be explored. We show that our formulation suggests an efficient training method and validate our conclusions on CIFAR-10 and CIFAR-100 matching state of the art accuracy. Remarkably, our 32 layer wider model performs similar to a 1001 layer ResNet model.

研究动机与目标

  • 在深度网络中引入正则化和架构多样性以超越 dropout 和随机深度的局限。
  • 开发一个通用的随机训练框架(Swapout),从丰富的架构集合中进行采样。
  • 在 CIFAR-10 和 CIFAR-100 上对 Swapout 进行与 ResNet 及基线随机方法的对比评估。
  • 证明更宽、较浅的 Swapout 模型可以匹配或超过非常深的残差网络。

提出的方法

  • 将 Swapout 定义为每个单元在 0、X、F(X) 和 X+F(X) 等多种选项之间的随机选择。
  • 证明 Swapout 将 dropout 和随机深度推广为特例。
  • 提供一个 Lipschitz 稳定性讨论,将 Swapout 与类似 dropout 的 SGD 稳定性联系起来。
  • 比较推理方法:确定性(期望)与随机性(对多个网络实例进行采样)。
  • 在 CIFAR-10/100 上用 CIFAR-10/100 的 ResNet 结构块进行实验,使用确定性和随机推断,并改变网络的宽度和深度。
  • 给出参数高效的结果,展示更宽、更浅的 Swapout 网络可以与非常深的 ResNet 相抗衡。

实验结果

研究问题

  • RQ1Swapout 是否能在 CIFAR-10 与 CIFAR-100 上比等深度的 ResNet 提升准确性?
  • RQ2通过 Swapout 增加宽度是否能带来与更深架构相当的收益?
  • RQ3不同的随机训练计划(逐层伯努利参数)如何影响性能?
  • RQ4随机推断(对多次前向传播取样)是否对 Swapout 比确定性推断更有利?
  • RQ5相对于基线方法,Swapout 的参数效率与性能之间的关系是什么?

主要发现

  • Swapout 在 CIFAR-10 和 CIFAR-100 上相对于可比的 ResNet 基线提高了准确性。
  • 一个 32 层更宽的 Swapout 模型在两个 CIFAR 数据集上与 1001 层的 ResNet 的性能相当。
  • 在 Swapout 中增大宽度可获得显著收益,甚至在参数更多的情况下也能优于更深的 ResNet。
  • 随机推断(对来自多个样本的预测取平均)在 Swapout 中始终优于确定性推断。
  • 不同的随机训练计划显著影响性能,通常早期层的随机性越低越好。
  • Swapout 达到了参数高效的增益,有时甚至以更少参数超越更深的模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。