[论文解读] Learning to Compose Domain-Specific Transformations for Data Augmentation
该论文通过学习一个具有GAN-like目标和强化学习的生成序列模型,自动组合领域特定、由用户提供的用于数据增强的变换函数,从而提高最终模型在图像和文本任务上的性能。
Data augmentation is a ubiquitous technique for increasing the size of labeled training sets by leveraging task-specific data transformations that preserve class labels. While it is often easy for domain experts to specify individual transformations, constructing and tuning the more sophisticated compositions typically needed to achieve state-of-the-art results is a time-consuming manual task in practice. We propose a method for automating this process by learning a generative sequence model over user-specified transformation functions using a generative adversarial approach. Our method can make use of arbitrary, non-deterministic transformation functions, is robust to misspecified user input, and is trained on unlabeled data. The learned transformation model can then be used to perform data augmentation for any end discriminative model. In our experiments, we show the efficacy of our approach on both image and text datasets, achieving improvements of 4.0 accuracy points on CIFAR-10, 1.4 F1 points on the ACE relation extraction task, and 3.4 accuracy points when using domain-specific transformation operations on a medical imaging dataset as compared to standard heuristic augmentation approaches.
研究动机与目标
- 将数据增强作为在有限标签数据下利用领域不变性的手段。
- 提出一个生成序列模型,用来组合用户提供的、可能是非确定性的变换函数(TFs)。
- 放宽所有TF保持类别标签的假设,并实现从未标记数据中学习。
- 使用受GAN启发的目标,使变换数据映射到零分布的程度最小化,同时鼓励多样且有用的变换。
- 展示在图像和文本领域的有效性及稳健的性能提升。
提出的方法
- 将数据增强表示为对数据点作用的增量、用户指定的TF序列。
- 将TF视为黑盒、不可微的函数,并将序列建模为生成器G_theta的输出。
- 通过带有判别器D_emptyset的GAN-like目标训练G_theta,该判别器将变换数据与分布内数据区分开来。
- 引入多样性目标,避免退化或重复的TF序列。
- 将学习公式化为强化学习,使用策略梯度来处理不可微的TFs和随机变换。
- 提供两种生成器架构:一个均值场独立模型和一个基于LSTM的有状态序列模型。
实验结果
研究问题
- RQ1领域专家如何通过变换函数(TFs)编码不变性,并使模型学习这些TFs的有效组合用于数据增强?
- RQ2是否可以利用未标注的数据学习一个TF序列生成器,以避免产生出分布外的数据?
- RQ3建模TF序列(尤其是带有序列/依赖结构的)在跨模态任务上是否比简单直觉增强有改进?
- RQ4实际应用中该方法对错误设定或相互冲突的TF有多鲁棒?
主要发现
- 该方法在 MNIST、CIFAR-10、ACE 关系抽取和 DDSM 乳腺X线摄影任务上相对于直觉增强取得改进。
- 基于LSTM的TF序列模型通常优于均值场独立模型,凸显序列结构的价值。
- 在CIFAR-10(10%子样本)上,该方法在直觉增强基础上获得4.0个准确度点的提升,且可与半监督GAN竞争。
- 在ACE上,该方法在F1分数上比直觉增强提升1.4点。
- 在乳腺X线摄影(DDSM)上,包含域特定的基于分割的TF获得改进,其中LSTM模型取得最高增益。
- 该方法对错误设定的TF显示鲁棒性,学习的TF频率避免无效算子。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。