QUICK REVIEW

[论文解读] Neural Data Augmentation via Example Extrapolation

Kenton Lee, Kelvin Guu|arXiv (Cornell University)|Feb 2, 2021

Topic Modeling参考文献 32被引用 37

一句话总结

Ex2 训练一个神经示例外推器，从少量样本在代表性不足的数据分片中合成新的带标签数据，在 CLINC150、SNIPS 和 FewRel 基准测试中提升少样本性能。

ABSTRACT

In many applications of machine learning, certain categories of examples may be underrepresented in the training data, causing systems to underperform on such "few-shot" cases at test time. A common remedy is to perform data augmentation, such as by duplicating underrepresented examples, or heuristically synthesizing new examples. But these remedies often fail to cover the full diversity and complexity of real examples. We propose a data augmentation approach that performs neural Example Extrapolation (Ex2). Given a handful of exemplars sampled from some distribution, Ex2 synthesizes new examples that also belong to the same distribution. The Ex2 model is learned by simulating the example generation procedure on data-rich slices of the data, and it is applied to underrepresented, few-shot slices. We apply Ex2 to a range of language understanding tasks and significantly improve over state-of-the-art methods on multiple few-shot learning benchmarks, including for relation extraction (FewRel) and intent classification + slot filling (SNIPS).

研究动机与目标

激发在 NLP 任务中代表性不足的分片导致少样本性能偏弱的问题。
提出 Ex2，一种神经示例外推器，能够从同一分片的少量样本中生成新示例。
形式化数据分片和 Ex2 的训练目标，以从 e1:K 个样本推断 p(e|s)。
展示 Ex2 数据增强在文本分类、意图-槽位任务和关系抽取上的经验增益。

提出的方法

通过用户定义的分片函数将训练数据划分为分片，并指定 few-shot 与 many-shot 分片。
使用数据丰富的分片训练一个序列到序列外推器（Ex2），通过最大化在同一分片的 K 个示例给定下保留样本的似然来实现。
将示例和输出表示为匿名化文本，防止分片标识泄露并促使真实分布学习。
使用训练好的 Ex2 为代表性不足的分片生成合成带标签的示例，并扩充下游模型的训练集。
将下游模型设定为基于 T5 的 seq2seq 学习者，并在跨任务的总体和少样本性能上进行评估。

实验结果

研究问题

RQ1在仅给出该分片的少量示例的情况下，Ex2 是否能够有效学习数据分片的完整分布？
RQ2对分片身份进行匿名化是否有助于 Ex2 的泛化，超越对分片标签的记忆？
RQ3示例数 K 的大小在多大程度上影响 Ex2 合成具有代表性的新增数据的能力？
RQ4在输出空间不同的多样化 NLP 任务中（分类、槽位填充、关系抽取），Ex2 数据增强是否有益？

主要发现

Ex2 在多任务上带来强烈的少样本提升，例如 CLINC150：总体准确率 97.4%，宏 F1 96.1，少样本准确率 95.6%，少样本宏 F1 80.4%。
在 SNIPS 中，Ex2 总体意图准确率为 97.8%，少样本为 93.5%；在少样本分片上槽位 F1 提升至 75.3。
对于 FewRel-Open，Ex2 实现 78.0% 的总体准确率和 70.7% 的少样本准确率，超越基线和该设定下的以往最先进方法。
消融研究显示，更多示例（更高的 K）和分片标签的匿名化能提升少样本性能，而对 Ex2 有效性至关重要的是世界知识的预训练（T5）。
预训练的 Ex2 模型（如 T5-XL）明显优于随机初始化的模型，强调了大规模预训练在外推中的世界知识的重要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。