[论文解读] On the Generalization Effects of Linear Transformations in Data Augmentation
本文对过参数化线性回归中的线性数据增强进行了理论分析,表明标签不变变换通过扩展数据跨度改善泛化性能,而标签混合变换(如mixup)则起到隐式正则化作用。作者提出一种基于搜索的增强方案,优先选择不确定的变换,在CIFAR-100上实现SOTA性能(较随机采样提升1.24%),并在多个基准测试中取得具有竞争力的结果。
Data augmentation is a powerful technique to improve performance in applications such as image and text classification tasks. Yet, there is little rigorous understanding of why and how various augmentations work. In this work, we consider a family of linear transformations and study their effects on the ridge estimator in an over-parametrized linear regression setting. First, we show that transformations that preserve the labels of the data can improve estimation by enlarging the span of the training data. Second, we show that transformations that mix data can improve estimation by playing a regularization effect. Finally, we validate our theoretical insights on MNIST. Based on the insights, we propose an augmentation scheme that searches over the space of transformations by how uncertain the model is about the transformed data. We validate our proposed scheme on image and text datasets. For example, our method outperforms random sampling methods by 1.24% on CIFAR-100 using Wide-ResNet-28-10. Furthermore, we achieve comparable accuracy to the SoTA Adversarial AutoAugment on CIFAR-10, CIFAR-100, SVHN, and ImageNet datasets.
研究动机与目标
- 理解过参数化线性模型中数据增强的理论机制。
- 分析线性变换(尤其是标签不变与标签混合)对估计误差和泛化性能的影响。
- 基于模型不确定性与理论洞见,开发一种高效的变换搜索策略。
- 在图像与文本数据集上通过实证验证理论发现,性能优于随机采样与SOTA方法。
提出的方法
- 对过参数化线性回归中岭估计器的理论分析,采用投影算子 $ P_X^\bot $ 量化变换带来的新信息。
- 推导估计误差边界:标签不变变换的误差为 $ \frac{(\beta^\top P_X^\perp Fx)^2}{n} $,mixup的误差为 $ \frac{\|X\beta\|^2}{n^2} $,表明其具有正则化效应。
- 提出一种基于模型不确定性的变换搜索方法,通过降低高性能变换的出现频率来优化训练过程。
- 将该方法应用于图像(CIFAR-10、CIFAR-100、SVHN、ImageNet)与文本数据集,采用Wide-ResNet-28-10与MLP模型。
- 使用内在误差得分与不稳定性得分评估模型鲁棒性与泛化能力,对比同类别与不同类别混合的mixup效果。
- 分析交叉熵损失中的边际分布,解释为何mixup能纠正高边际误分类样本。
实验结果
研究问题
- RQ1标签不变的线性变换如何影响过参数化线性模型中的估计误差?
- RQ2在岭回归背景下,标签混合变换(如mixup)具有何种正则化效应?
- RQ3能否将线性模型中的理论洞见用于提升深度学习中数据增强的搜索效率?
- RQ4为何mixup能改善泛化性能?它如何影响分类模型中的边际分布?
- RQ5同类别与不同类别图像混合是否带来不同的泛化收益?
主要发现
- 标签不变变换(如旋转与翻转)通过扩展数据跨度降低估计误差,误差减少量与 $ \frac{(\beta^\top P_X^\perp Fx)^2}{n} $ 成正比。
- 标签混合变换(如mixup)通过正则化降低估计误差,误差减少量与 $ \frac{\|X\beta\|^2}{n^2} $ 成正比,即使未增加新的数据跨度。
- 在使用Wide-ResNet-28-10的CIFAR-100上,所提方法较随机采样提升1.24%准确率。
- 该方法在CIFAR-10、CIFAR-100、SVHN与ImageNet上达到与SOTA方法Adversarial AutoAugment相当的准确率。
- 在MNIST上,不同类别混合的mixup降低了内在误差得分,而同类别混合则无此效果,证实了标签混合在正则化中的关键作用。
- mixup能纠正基线模型中具有大边际的误分类样本,并提升小边际正确分类样本的边际值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。