[论文解读] On Feature Normalization and Data Augmentation
本文提出了一种名为 Moment Exchange (MoEx) 的新型特征空间数据增强方法,通过在训练过程中交换图像之间的特征矩(均值和方差)并插值其标签,从而提升深度学习的泛化能力。MoEx 促使模型同时关注归一化特征与矩统计量,在视觉和语音基准测试中一致提升准确率与鲁棒性,且无需外部模型或复杂预处理。
The moments (a.k.a., mean and standard deviation) of latent features are often removed as noise when training image recognition models, to increase stability and reduce training time. However, in the field of image generation, the moments play a much more central role. Studies have shown that the moments extracted from instance normalization and positional normalization can roughly capture style and shape information of an image. Instead of being discarded, these moments are instrumental to the generation process. In this paper we propose Moment Exchange, an implicit data augmentation method that encourages the model to utilize the moment information also for recognition models. Specifically, we replace the moments of the learned features of one training image by those of another, and also interpolate the target labels -- forcing the model to extract training signal from the moments in addition to the normalized features. As our approach is fast, operates entirely in feature space, and mixes different signals than prior methods, one can effectively combine it with existing augmentation approaches. We demonstrate its efficacy across several recognition benchmark data sets where it improves the generalization capability of highly competitive baseline networks with remarkable consistency.
研究动机与目标
- 为了解决深度学习中特征矩在图像识别中被丢弃但在图像生成中被利用的二元对立问题。
- 开发一种方法,明确鼓励深度神经网络在识别任务中利用矩信息,而非将其视为噪声。
- 创建一种简单、快速且可组合的特征空间数据增强技术,可与现有输入空间增强方法互补。
- 在包括视觉与语音应用在内的多种数据集与模型架构上,提升模型的泛化能力与鲁棒性。
提出的方法
- MoEx 在每个小批量中的图像经过网络第一层后,提取其通道上的均值与标准差。
- 它在同一个小批量内交换不同图像之间的这些矩,将一个图像的矩信息注入到另一个图像中。
- 交换后图像的目标标签通过线性插值处理,迫使模型从归一化特征与交换后的矩中同时学习。
- 该方法完全在特征空间中运行,因此与裁剪、翻转或 Mixup 等输入空间增强方法正交。
- 其实现仅需几行代码,可轻松与现有增强技术结合。
- 该方法具有通用性,可扩展至矩以外的其他统计量,如主成分。
实验结果
研究问题
- RQ1传统上在识别模型中被丢弃的特征矩,能否作为有意义的信号源以提升泛化能力?
- RQ2在训练过程中交换图像之间的矩,对不同数据集与架构的模型准确率与鲁棒性有何影响?
- RQ3像 MoEx 这类特征空间增强方法能否有效与现有输入空间增强技术结合?
- RQ4MoEx 是否能在图像分类之外的下游任务中提升性能,例如语音识别?
- RQ5与先前显式修改数据分布的方法(如基于风格迁移的增强)相比,MoEx 表现如何?
主要发现
- MoEx 在十一个多样化的视觉基准测试中持续提升 Top-1 准确率,当与 Cutmix 结合时,在 ImageNet-A 上最高提升达 7.9%。
- 在 ImageNet-A 上,MoEx 与 Cutmix 结合实现 8.5 AURRA 与 42.6 RMS 校准误差,优于所有基线方法,包括 Mixup 与 Cutout。
- 在 Speech Commands 数据集上的语音识别任务中,MoEx 将大型模型的测试误差从 2.21%(WRN-28-10)降低至 1.98%,证明其在视觉之外任务中的有效性。
- 即使在小型模型上,MoEx 与其它增强方法结合也能提升鲁棒性,尽管在极小架构(如 DenseNet-BC-100)上增益较小。
- MoEx 具有高度可组合性:其增益可与 Cutmix 和 Mixup 等现有方法叠加,表明其改进具有正交性与可加性。
- 消融研究证实,若从位置归一化中移除矩信息,性能会下降,验证了矩携带了有意义的结构信息。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。