QUICK REVIEW

[论文解读] Shake-Shake regularization

Xavier Gastaldi|arXiv (Cornell University)|May 21, 2017

Advanced Neural Network Applications参考文献 19被引用 313

一句话总结

Shake-Shake 在多分支网络中训练时用随机仿射组合替代并行分支的标准求和，从而提升泛化并在 CIFAR 上达到最先进的结果。

ABSTRACT

The method introduced in this paper aims at helping deep learning practitioners faced with an overfit problem. The idea is to replace, in a multi-branch network, the standard summation of parallel branches with a stochastic affine combination. Applied to 3-branch residual networks, shake-shake regularization improves on the best single shot published results on CIFAR-10 and CIFAR-100 by reaching test errors of 2.86% and 15.85%. Experiments on architectures without skip connections or Batch Normalization show encouraging results and open the door to a large set of applications. Code is available at https://github.com/xgastaldi/shake-shake

研究动机与目标

为多分支网络的正则化提供动机，超越 BatchNorm 和 dropout。
在训练期间提出对残差分支的随机仿射组合。
在 CIFAR-10 和 CIFAR-100 上对 Shake-Shake 进行评估，并与最先进的基线进行比较。
探索训练时与推理时的行为差异及架构要素（跳跃连接、BatchNorm）的作用。

提出的方法

在训练期间，将残差求和 x_{i+1}=x_i+F(x_i,W^{(1)})+F(x_i,W^{(2)}) 替换为 x_{i+1}=x_i+α_i F(x_i,W^{(1)})+(1−α_i) F(x_i,W^{(2)})，其中 α_i 〜 Uniform(0,1)。
在测试时，将所有 α_i 设为它们的期望值 0.5。
在每次前向传播和反向传播之前独立更新 α_i，以创建随机的前向/后向流（梯度增强）。
在 2 分支 ResNet 上进行实验（以及在 3 分支情境中的变体），并比较前向/后向策略（Shake、Even、Keep、Batch、Image-level 更新）。
通过反向传播系数 β_i.j 与前向传播系数 α_i.j 的交互来研究正则化强度；分析残差分支之间的对齐和相关性。

实验结果

研究问题

RQ1在 CIFAR-10/100 上，残差分支的随机仿射混合是否超越标准正则化方法提升了泛化？
RQ2前向扰动与后向扰动（Shake、Keep、Even）以及系数应用的位置（层级、图像）如何影响性能？
RQ3架构要素（跳跃连接、BatchNorm）在实现 Shake-Shake 正则化中的作用是什么？
RQ4Shake-Shake 如何影响跨层的分支间相关性与对齐？
RQ5控制正则化强度与动态的因素有哪些，如何进行调优？

主要发现

Shake-Shake 在 2x32d/64d/96d 分支下分别达到 CIFAR-10 误差 3.55%、2.98%、2.86%（3–5 次跑平均值），优于许多单次基线。
图像级系数应用往往比块级或其他方案产生更强的正则化效果。
去除跳跃连接或 BatchNorm 显示 Shake-Shake 仍然能进行正则化，但成功取决于架构和超参数；某些配置在没有 BN 或耦合过强时发散。
在 Shake-Shake 下，两个残差分支输出之间的相关性降低，表明去相关化促成分支间的多样化学习。
反向传播系数设计对学习有关键影响；非预期的配置（例如 β_i.j = 1−α_i.j）可能对训练造成极大伤害，表明对系数对齐与时机敏感。
CIFAR-100 的结果显示 Shake-Even-Image 将错误率降低到 15.85%（在 ResNeXt-29 2x4x64d 变体上），表明跨数据集的正则化收益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。