Skip to main content
QUICK REVIEW

[论文解读] A Kernel Theory of Modern Data Augmentation

Tri Dao, Albert Gu|arXiv (Cornell University)|Mar 16, 2018
Neural Networks and Applications参考文献 36被引用 67
一句话总结

该论文将数据增强建模为一个马尔可夫过程,产生核结构,并显示增强数据可以通过特征平均和方差正则化来理解,同时给出实际用于加速训练的方法。

ABSTRACT

Data augmentation, a technique in which a training set is expanded with class-preserving transformations, is ubiquitous in modern machine learning pipelines. In this paper, we seek to establish a theoretical framework for understanding data augmentation. We approach this from two directions: First, we provide a general model of augmentation as a Markov process, and show that kernels appear naturally with respect to this model, even when we do not employ kernel classification. Next, we analyze more directly the effect of augmentation on kernel classifiers, showing that data augmentation can be approximated by first-order feature averaging and second-order variance regularization components. These frameworks both serve to illustrate the ways in which data augmentation affects the downstream learning model, and the resulting analyses provide novel connections between prior work in invariant kernels, tangent propagation, and robust optimization. Finally, we provide several proof-of-concept applications showing that our theory can be useful for accelerating machine learning workflows, such as reducing the amount of computation needed to train using augmented data, and predicting the utility of a transformation prior to training.

研究动机与目标

  • 为理解数据增强提供一个理论框架的动机。
  • 将增强建模为一个马尔可夫过程并揭示核之间的联系。
  • 展示通过特征平均和方差正则化,增强在学习中产生的一阶和二阶效应。
  • 展示能加速训练并诊断增强有效性的实际应用。

提出的方法

  • 用增强矩阵和重投影定义一个马尔可夫链增强模型。
  • 证明在增强数据上的 k-NN 近似一个核分类器,其核依赖于增强。
  • 推导增强目标的一阶(特征平均)和二阶(方差正则化)分解。
  • 在 MNIST 和 CIFAR-10 上对近似进行经验验证,并将其与不变核和鲁棒优化联系起来。
  • 展示实用工具,包括通过核目标对齐进行增强选择,以及使用随机傅里叶特征实现高效增强。

实验结果

研究问题

  • RQ1如何用数学方式建模数据增强,以揭示其对学习算法的影响?
  • RQ2数据增强带来哪些核解释,它们与下游分类器有何关系?
  • RQ3增强的一阶和二阶效应如何影响不变性和正则化?
  • RQ4我们能否推导出在训练前就能加速训练并预测增强有效性的实用方法?

主要发现

  • 将增强建模为马尔可夫过程可产生稳定分布,并在渐近情况下形成核分类器形式。
  • 可以构建一个核为 K̄ = T K Tᵀ 的核,其中 T 编码增强分布,φ 是基底特征映射。
  • 一阶近似表明增强作为特征平均的作用,增加不变性。
  • 二阶近似引入一个方差正则化项,惩罚在增强形式上的输出方差。
  • 在 MNIST/CIFAR-10 的经验结果表明,二阶项比一阶项更好地近似真正的增强目标。
  • 实用工具包括用于增强选择的快速核度量和通过随机傅里叶特征实现的高效增强,以及用于降深度网络计算量的中间层平均。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。