[论文解读] Towards Zero-Label Language Learning
该论文提出了 Unsupervised Data Generation (UDG),一个零标签学习框架,使用少量示例提示与预训练语言模型从未标记示例中合成带标签的训练数据,从而实现零标签训练和有效的数据增强,在 SuperGLUE 上甚至超越有监督基线。
This paper explores zero-label learning in Natural Language Processing (NLP), whereby no human-annotated data is used anywhere during training and models are trained purely on synthetic data. At the core of our framework is a novel approach for better leveraging the powerful pretrained language models. Specifically, inspired by the recent success of few-shot inference on GPT-3, we present a training data creation procedure named Unsupervised Data Generation (UDG), which leverages few-shot prompts to synthesize high-quality training data without real human annotations. Our method enables zero-label learning as we train task-specific models solely on the synthetic data, yet we achieve better or comparable results from strong baseline models trained on human-labeled data. Furthermore, when mixed with labeled data, our approach serves as a highly effective data augmentation procedure, achieving new state-of-the-art results on the SuperGLUE benchmark.
研究动机与目标
- 在 NLP 中动机零标签学习以减少对人类标注数据的依赖。
- 开发一个数据创建管道,利用预训练语言模型在无监督的情况下生成带标签的示例。
- 展示在合成数据上进行训练可以达到或超越有监督基线,并在与有标签数据结合时提升性能。
- 证明 UDG 在文本分类和通用语言理解基准(SuperGLUE)上的有效性。
提出的方法
- 提出 Unsupervised Data Generation (UDG):通过提示预训练语言模型在给定伪标签描述 Des(y_hat) 和少量未标记示例的情况下生成输入 X 来获得带标签的数据,从而实现生成与预测的解耦。
- 使用 top-k 采样在不微调生成器的情况下生成合成的 (x_g, y_hat) 对。
- 在合成数据集上训练任务特定模型,必要时使用 Noisy Label Annealing (NLA) 在训练过程中对噪声合成示例的权重进行下调。
- 将 UDG 应用于无监督文本分类和类似 SuperGLUE 的语言理解任务,使用基于 T5 的下游模型对创建的数据进行微调。
- 研究数据规模和提示示例的影响,并研究通过将合成数据与真实带标签数据结合来进行数据增强的效果。
- 与少量学习推断和有监督基线进行比较,以评估竞争力,并在用带标签数据扩充时评估在 SuperGLUE 上的潜在超越人类表现。
实验结果
研究问题
- RQ1零标签学习通过合成数据生成在标准 NLP 基准上是否可以达到或超过有监督基线?
- RQ2合成数据质量、提示设计和数据集规模如何影响 UDG 的性能?
- RQ3将 UDG 作为数据增强方法在结合真实带标签数据时是否有效,特别是在像 SuperGLUE 这样的具有挑战性的基准上?
- RQ4在训练中使用 Noisy Label Annealing 对缓解噪声合成数据的作用是什么?
主要发现
| 模型 | 设置 | SuperGLUE 平均分 |
|---|---|---|
| Human | 89.8 | |
| Previous SOTA | 有监督 | 89.3 |
| T5+UDG | 90.4 | |
| GPT3 | 少-shot | 71.8 |
| UDG | 无监督 | 78.1 |
- UDG 在文本分类基准(IMDb、Yelp、Amazon、DBpedia)上的无监督设置中即具竞争力地达到强有监督基线水平。
- 在 SuperGLUE 上,UDG 以无监督数据达到 78.1 的平均分;当与带标签数据结合时,达到最先进的分数,且在 2020 年 12 月 20 日时甚至超过人类表现。
- 使用 T5 或 XLNet 为 backbone,UDG 加上 Noisy Label Annealing (NLA) 在多任务上提升性能,在很多情况下超越如 GPT-3 之类的少-shot 推断。
- 通过少-shot 提示生成的数据可扩展用于增强,在与带标签数据融合时,尤其在数据量较小的任务(COPA、WSC)上呈现改进。
- 一个关键发现是 UDG 在 IMDb 和 Yelp-2 的零标签设置中可超越若干全监督模型,突出无监督数据创建在下游训练中的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。