[论文解读] Shake-Shake regularization
Shake-Shake 在多分支网络中训练时用随机仿射组合替代并行分支的标准求和,从而提升泛化并在 CIFAR 上达到最先进的结果。
The method introduced in this paper aims at helping deep learning practitioners faced with an overfit problem. The idea is to replace, in a multi-branch network, the standard summation of parallel branches with a stochastic affine combination. Applied to 3-branch residual networks, shake-shake regularization improves on the best single shot published results on CIFAR-10 and CIFAR-100 by reaching test errors of 2.86% and 15.85%. Experiments on architectures without skip connections or Batch Normalization show encouraging results and open the door to a large set of applications. Code is available at https://github.com/xgastaldi/shake-shake
研究动机与目标
- 为多分支网络的正则化提供动机,超越 BatchNorm 和 dropout。
- 在训练期间提出对残差分支的随机仿射组合。
- 在 CIFAR-10 和 CIFAR-100 上对 Shake-Shake 进行评估,并与最先进的基线进行比较。
- 探索训练时与推理时的行为差异及架构要素(跳跃连接、BatchNorm)的作用。
提出的方法
- 在训练期间,将残差求和 x_{i+1}=x_i+F(x_i,W^{(1)})+F(x_i,W^{(2)}) 替换为 x_{i+1}=x_i+α_i F(x_i,W^{(1)})+(1−α_i) F(x_i,W^{(2)}),其中 α_i 〜 Uniform(0,1)。
- 在测试时,将所有 α_i 设为它们的期望值 0.5。
- 在每次前向传播和反向传播之前独立更新 α_i,以创建随机的前向/后向流(梯度增强)。
- 在 2 分支 ResNet 上进行实验(以及在 3 分支情境中的变体),并比较前向/后向策略(Shake、Even、Keep、Batch、Image-level 更新)。
- 通过反向传播系数 β_i.j 与前向传播系数 α_i.j 的交互来研究正则化强度;分析残差分支之间的对齐和相关性。
实验结果
研究问题
- RQ1在 CIFAR-10/100 上,残差分支的随机仿射混合是否超越标准正则化方法提升了泛化?
- RQ2前向扰动与后向扰动(Shake、Keep、Even)以及系数应用的位置(层级、图像)如何影响性能?
- RQ3架构要素(跳跃连接、BatchNorm)在实现 Shake-Shake 正则化中的作用是什么?
- RQ4Shake-Shake 如何影响跨层的分支间相关性与对齐?
- RQ5控制正则化强度与动态的因素有哪些,如何进行调优?
主要发现
- Shake-Shake 在 2x32d/64d/96d 分支下分别达到 CIFAR-10 误差 3.55%、2.98%、2.86%(3–5 次跑平均值),优于许多单次基线。
- 图像级系数应用往往比块级或其他方案产生更强的正则化效果。
- 去除跳跃连接或 BatchNorm 显示 Shake-Shake 仍然能进行正则化,但成功取决于架构和超参数;某些配置在没有 BN 或耦合过强时发散。
- 在 Shake-Shake 下,两个残差分支输出之间的相关性降低,表明去相关化促成分支间的多样化学习。
- 反向传播系数设计对学习有关键影响;非预期的配置(例如 β_i.j = 1−α_i.j)可能对训练造成极大伤害,表明对系数对齐与时机敏感。
- CIFAR-100 的结果显示 Shake-Even-Image 将错误率降低到 15.85%(在 ResNeXt-29 2x4x64d 变体上),表明跨数据集的正则化收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。