[论文解读] Self-training Improves Pre-training for Natural Language Understanding
本文提出 SentAugment,一种数据增强与自训练方法,从大型网络库中检索任务相关的领域内句子,以提升基于 RoBERTa 的自然语言理解模型,在多项任务上超过强基线。同时展示了对知识蒸馏和小样本学习的益处。
Unsupervised pre-training has led to much recent progress in natural language understanding. In this paper, we study self-training as another way to leverage unlabeled data through semi-supervised learning. To obtain additional data for a specific task, we introduce SentAugment, a data augmentation method which computes task-specific query embeddings from labeled data to retrieve sentences from a bank of billions of unlabeled sentences crawled from the web. Unlike previous semi-supervised methods, our approach does not require in-domain unlabeled data and is therefore more generally applicable. Experiments show that self-training is complementary to strong RoBERTa baselines on a variety of tasks. Our augmentation approach leads to scalable and effective self-training with improvements of up to 2.6% on standard text classification benchmarks. Finally, we also show strong gains on knowledge-distillation and few-shot learning.
研究动机与目标
- 通过利用域外未标注数据来激发半监督学习以推动自然语言理解的研究动机。
- 引入 SentAugment,从网络规模的句子库中检索任务相关的领域内句子。
- 证明结合 SentAugment 的自训练可以补充强大的预训练基线,从而提升下游任务的性能。
- 探索在开放领域数据上对知识蒸馏和小样本学习的扩展。
提出的方法
- 构建用于检索的大型外部未标注网络句子库(CC-100M/1B/5B)。
- 用多语言掩码语言模型目标和三元组损失训练 SentAugment Sentence Encoder (SASE),以产生面向同义改写的嵌入。
- 对于每个下游任务,构建任务嵌入(全均值、标签均值、逐句)以查询句子库获得相似句子。
- 通过教师模型置信度对检索到的句子进行筛选,获得一个可控的领域内候选集。
- 使用在该任务上微调过的 RoBERTa-Large 作为教师对检索到的句子进行合成标注,然后用合成数据对 RoBERTa-Large 学生模型进行 KL 散度训练。
- 可选地对较小的学生模型应用知识蒸馏,并在带增强数据的少样本设置中进行评估。
实验结果
研究问题
- RQ1在使用开放域、领域内增强数据时,自训练是否可以与预训练互补以提升自然语言理解?
- RQ2SentAugment 是否在没有领域内未标注数据的情况下实现有效的领域适应,并对标准、少样本和蒸馏任务有何影响?
- RQ3哪些关键因素(检索策略、嵌入质量、标注范式)驱动基于 SentAugment 的自训练的增益?
- RQ4随着外部句子库规模的扩大,性能和计算成本如何变化?
主要发现
- 使用 SentAugment 的自训练使 RoBERTa-Large 在六个基准测试中相对于强基线平均提升 1.2% 的准确率。
- 少样本学习在带有 SentAugment 的情形下平均提升 3.5%(从 72.0% 提升到 75.5%)。
- 带有 SentAugment 的知识蒸馏在平均准确率方面最高可达 85.4%,接近教师模型,同时参数显著更少。
- 针对大多数任务,使用任务特异的标签均值检索优于全均值检索(83.1% 的平均值)。
- 基于 para-embeddings 的句子嵌入(SASE)优于词均值基线,SASE 在评估任务上实现 83.1% 的平均值。
- 将库规模从 50M 增加到 1B 行可以提升性能;在 1B 到 5B 的扩展中增益趋于饱和,但对罕见领域可能有潜在益处。
- 将连续后验概率作为合成标签(logits)使用,结果优于离散标签的自训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。