Skip to main content
QUICK REVIEW

[论文解读] Shake-Shake regularization

Xavier Gastaldi|arXiv (Cornell University)|May 21, 2017
Advanced Neural Network Applications参考文献 19被引用 313
一句话总结

Shake-Shake 在多分支网络中训练时用随机仿射组合替代并行分支的标准求和,从而提升泛化并在 CIFAR 上达到最先进的结果。

ABSTRACT

The method introduced in this paper aims at helping deep learning practitioners faced with an overfit problem. The idea is to replace, in a multi-branch network, the standard summation of parallel branches with a stochastic affine combination. Applied to 3-branch residual networks, shake-shake regularization improves on the best single shot published results on CIFAR-10 and CIFAR-100 by reaching test errors of 2.86% and 15.85%. Experiments on architectures without skip connections or Batch Normalization show encouraging results and open the door to a large set of applications. Code is available at https://github.com/xgastaldi/shake-shake

研究动机与目标

  • 为多分支网络的正则化提供动机,超越 BatchNorm 和 dropout。
  • 在训练期间提出对残差分支的随机仿射组合。
  • 在 CIFAR-10 和 CIFAR-100 上对 Shake-Shake 进行评估,并与最先进的基线进行比较。
  • 探索训练时与推理时的行为差异及架构要素(跳跃连接、BatchNorm)的作用。

提出的方法

  • 在训练期间,将残差求和 x_{i+1}=x_i+F(x_i,W^{(1)})+F(x_i,W^{(2)}) 替换为 x_{i+1}=x_i+α_i F(x_i,W^{(1)})+(1−α_i) F(x_i,W^{(2)}),其中 α_i 〜 Uniform(0,1)。
  • 在测试时,将所有 α_i 设为它们的期望值 0.5。
  • 在每次前向传播和反向传播之前独立更新 α_i,以创建随机的前向/后向流(梯度增强)。
  • 在 2 分支 ResNet 上进行实验(以及在 3 分支情境中的变体),并比较前向/后向策略(Shake、Even、Keep、Batch、Image-level 更新)。
  • 通过反向传播系数 β_i.j 与前向传播系数 α_i.j 的交互来研究正则化强度;分析残差分支之间的对齐和相关性。

实验结果

研究问题

  • RQ1在 CIFAR-10/100 上,残差分支的随机仿射混合是否超越标准正则化方法提升了泛化?
  • RQ2前向扰动与后向扰动(Shake、Keep、Even)以及系数应用的位置(层级、图像)如何影响性能?
  • RQ3架构要素(跳跃连接、BatchNorm)在实现 Shake-Shake 正则化中的作用是什么?
  • RQ4Shake-Shake 如何影响跨层的分支间相关性与对齐?
  • RQ5控制正则化强度与动态的因素有哪些,如何进行调优?

主要发现

  • Shake-Shake 在 2x32d/64d/96d 分支下分别达到 CIFAR-10 误差 3.55%、2.98%、2.86%(3–5 次跑平均值),优于许多单次基线。
  • 图像级系数应用往往比块级或其他方案产生更强的正则化效果。
  • 去除跳跃连接或 BatchNorm 显示 Shake-Shake 仍然能进行正则化,但成功取决于架构和超参数;某些配置在没有 BN 或耦合过强时发散。
  • 在 Shake-Shake 下,两个残差分支输出之间的相关性降低,表明去相关化促成分支间的多样化学习。
  • 反向传播系数设计对学习有关键影响;非预期的配置(例如 β_i.j = 1−α_i.j)可能对训练造成极大伤害,表明对系数对齐与时机敏感。
  • CIFAR-100 的结果显示 Shake-Even-Image 将错误率降低到 15.85%(在 ResNeXt-29 2x4x64d 变体上),表明跨数据集的正则化收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。