Skip to main content
QUICK REVIEW

[论文解读] Revisiting Self-Training for Neural Sequence Generation

Junxian He, Jiatao Gu|arXiv (Cornell University)|Sep 30, 2019
Topic Modeling参考文献 36被引用 139
一句话总结

本论文重新审视神经序列生成的自训练,并显示通过增加 dropout 和输入噪声(噪声自训练)在半监督学习方面显著提升翻译与摘要的性能,有时甚至在低资源条件下超越回译,尤其在低资源设置中。

ABSTRACT

Self-training is one of the earliest and simplest semi-supervised methods. The key idea is to augment the original labeled dataset with unlabeled data paired with the model's prediction (i.e. the pseudo-parallel data). While self-training has been extensively studied on classification problems, in complex sequence generation tasks (e.g. machine translation) it is still unclear how self-training works due to the compositionality of the target space. In this work, we first empirically show that self-training is able to decently improve the supervised baseline on neural sequence generation tasks. Through careful examination of the performance gains, we find that the perturbation on the hidden states (i.e. dropout) is critical for self-training to benefit from the pseudo-parallel data, which acts as a regularizer and forces the model to yield close predictions for similar unlabeled inputs. Such effect helps the model correct some incorrect predictions on unlabeled data. To further encourage this mechanism, we propose to inject noise to the input space, resulting in a "noisy" version of self-training. Empirical study on standard machine translation and text summarization benchmarks shows that noisy self-training is able to effectively utilize unlabeled data and improve the performance of the supervised baseline by a large margin.

研究动机与目标

  • 评估自训练在神经序列生成任务(如机器翻译和文本摘要)上的表现。
  • 找出自训练为何有效或无效的原因,并确定推动收益的关键要素。
  • 提出并验证一种噪声自训练变体,以更好地利用未标注数据。
  • 提供关于在何时、如何在 seq2seq 模型中获得自训练改进的实际指导。

提出的方法

  • 将经典自训练形式化为条件序列生成问题:以在 L 上训练的基础模型为起点,并利用来自未标注 U 的伪并行数据 S。
  • 表明在 S ∪ L 上训练新模型(先从伪数据训练,然后在真实数据上微调)可以优于基线。
  • 对解码策略进行实验(束搜索 vs 采样)以生成伪目标。
  • 在伪训练期间引入 dropout,作为一个关键的正则化项,能够使模型对相似输入产生相似的预测。
  • 在 dropout 的基础上通过引入输入扰动(噪声)来提出噪声自训练,以进一步平滑输入—输出映射。
  • 在 MT(WMT 2014 En–De, FloRes En–Ne)和 Gigaword 摘要任务上进行跨高资源与低资源设置的经验验证。

实验结果

研究问题

  • RQ1自训练在神经序列生成任务(如机器翻译和摘要)上的表现如何?
  • RQ2推动自训练收益的因素有哪些,‘错误’的伪目标是否会成为问题?
  • RQ3在输入和内部表示上加入噪声(噪声自训练)是否能在跨任务和资源设置中更好地利用未标注数据?

主要发现

  • 自训练在神经序列生成任务上显著优于有监督基线。
  • 在伪训练期间对教师/模型进行 dropout 是推动大部分收益的关键因素,作为一种正则化器,促进对未标注数据的一致预测。
  • 束搜索解码对收益的贡献适中,但由 dropout 引导的扰动是主要的改进来源。
  • 噪声自训练,在伪训练过程中添加输入扰动,进一步提升机器翻译和文本摘要基准的性能。
  • 在 WMT English–German 和 FloRes English–Nepali 上,噪声自训练在许多设置中比基线高出 1–6 BLEU 点;在某些情况下也可与回译相匹配或超越,特别是在平行数据有限的情况下。
  • 在文本摘要(Gigaword)中,噪声自训练在较小平行数据下常常优于回译,在全数据预训练场景下接近最先进结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。