QUICK REVIEW
[论文解读] Semi-Autoregressive Training Improves Mask-Predict Decoding
Marjan Ghazvininejad, Omer Levy|arXiv (Cornell University)|Jan 23, 2020
Topic Modeling参考文献 15被引用 48
一句话总结
SMART 训练提升条件掩码语言模型的 mask-predict 解码,弥合与自回归模型的大部分差距并提升翻译质量。
ABSTRACT
The recently proposed mask-predict decoding algorithm has narrowed the performance gap between semi-autoregressive machine translation models and the traditional left-to-right approach. We introduce a new training method for conditional masked language models, SMART, which mimics the semi-autoregressive behavior of mask-predict, producing training examples that contain model predictions as part of their inputs. Models trained with SMART produce higher-quality translations when using mask-predict decoding, effectively closing the remaining performance gap with fully autoregressive models.
研究动机与目标
- 激发并解决训练与半自回归 mask-predict 解码之间的不匹配。
- 提出 SMART 训练,使训练阶段对基于预测的输入有更好的反映。
- 在标准 MT 基准上评估 SMART,并与 NART 和自回归基线进行比较。
- 分析训练选择(例如预测所有标记、前向传播次数)如何影响性能和鲁棒性。
提出的方法
- 从一个金标准目标序列开始,掩蔽随机子集以创建 Y_gold。
- 预测整个序列以从部分观测的 Y_gold_obs 获得 Y_pred。
- 从 Y_pred 中再掩蔽一个新的随机子集,创建训练输入 Y_pred_obs,并训练以预测金标准 Y_gold。
- 使用对所有标记的交叉熵进行训练,以允许纠正观测到的预测中的错误。
- 也可选地将 mask-predict 的预测步骤修改为预测所有标记(不仅仅是被掩蔽的),以增强鲁棒性。
实验结果
研究问题
- RQ1与原始 NART 训练相比,使用 mask-predict 解码时 SMART 训练是否提升翻译质量?
- RQ2在标准 MT 基准上,SMART 训练的模型与完全自回归基线的接近程度如何?
- RQ3哪些训练变体(如预测所有标记 vs. 仅预测被掩蔽的标记、前向传播次数)会影响性能?
- RQ4SMART 在不同语言对和 mask-predict 的解码迭代次数(T)下的表现如何?
- RQ5训练示例难度(金标准掩蔽比例)对学习有哪些影响?
主要发现
- SMART 在各基准上比 NART 有更高的 BLEU,平均提升 +0.71 BLEU。
- 使用 10 次解码迭代,SMART 在 WMT’14 EN-DE 上达到 27.65 BLEU,接近强自回归基线的 27.75 BLEU。
- SMART 在 10 次迭代下的 mask-predict 在 WMT’17 上达到 31.27(DE-EN)和 34.06(EN-ZH),接近自回归性能。
- 在预测阶段预测所有标记并结合 SMART,使开发集在 4 次迭代时获得约 ~0.40 BLEU 的增益。
- 增加迭代次数通常缩小与自回归模型的差距,在某些基准上表现达到相等或接近相等。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。