[论文解读] Can We Gain More from Orthogonality Regularizations in Training Deep CNNs?
本文提出了插件式正交性正则化(SO、DSO、MC、SRIP)用于CNN,并且在 CIFAR、ImageNet 与 SVHN 的 ResNet、WideResNet、ResNeXt 上,SRIP 始终提高准确性和收敛性。
This paper seeks to answer the question: as the (near-) orthogonality of weights is found to be a favorable property for training deep convolutional neural networks, how can we enforce it in more effective and easy-to-use ways? We develop novel orthogonality regularizations on training deep CNNs, utilizing various advanced analytical tools such as mutual coherence and restricted isometry property. These plug-and-play regularizations can be conveniently incorporated into training almost any CNN without extra hassle. We then benchmark their effects on state-of-the-art models: ResNet, WideResNet, and ResNeXt, on several most popular computer vision datasets: CIFAR-10, CIFAR-100, SVHN and ImageNet. We observe consistent performance gains after applying those proposed regularizations, in terms of both the final accuracies achieved, and faster and more stable convergences. We have made our codes and pre-trained models publicly available: https://github.com/nbansal90/Can-we-Gain-More-from-Orthogonality.
研究动机与目标
- 通过约束权重矩阵近似正交来稳定训练并提升深度 CNN 的性能的动机与研究。
- 提出多种正则化器,通过不同的形式在方形和矩形权重矩阵中实现正交性。
- 在标准视觉数据集上的主流 CNN 架构上评估这些正则化的有效性。
- 提供在不改变网络架构的情况下,将这些即插即用正则化器整合的实用指南。
提出的方法
- 推导四种正则化器:Soft Orthogonality (SO)、Double Soft Orthogonality (DSO)、Mutual Coherence (MC) 和 Spectral RIP (SRIP)。
- SO 最小化 ||W^T W - I||_F^2;DSO 最小化 ||W^T W - I||_F^2 + ||W W^T - I||_F^2。
- MC 最小化 ||W^T W - I||_∞ 以抑制列相关。
- SRIP 最小化 (W^T W - I) 的谱范数以将奇异值对齐为1;为提高效率,使用基于幂迭代的近似。
- 采用一个方案变更的训练策略,在训练过程中降低正则化强度,以平衡早期稳定和后期灵活性。
- 在 ResNet、WideResNet、ResNeXt上对 CIFAR-10/100、ImageNet、SVHN 进行评估;将 SRIP 与 SR、OMDSM、以及基于雅可比的正则化进行比较。
实验结果
研究问题
- RQ1正交性正则化是否能提高深度 CNN 的训练稳定性和最终准确性?
- RQ2哪种正则化形式(SO、DSO、MC、SRIP)在性能与计算成本之间提供最佳折衷?
- RQ3SRIP 在像 ImageNet 这样的大规模数据集上是否优于现有的谱正则化或硬正交性方法?
- RQ4方案变更(动态正则化强度)在使用正交性正则化训练时是否有帮助?
主要发现
- 在 CIFAR-10/100、ImageNet 和 SVHN 中,SRIP 始终在所提出的正则化器中表现最好。
- 在 CIFAR-10/100 上,SRIP 使 Wide ResNet-28-10 的 top-1 精度提升最多达到 2.31%,对于其他模型则根据数据集提升 0.22–0.56%。
- SRIP 在报道的比较中优于谱正则化、硬正交性方法和基于雅可比范数的方法。
- SO 作为一个出乎意料的鲁棒基线,而 DSO 常常表现不如预期。
- 正则化加速初期训练并在不改变结构的前提下平滑收敛;方案变更(随时间降低正则化)提升最终准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。