QUICK REVIEW

[论文解读] Semi-Autoregressive Training Improves Mask-Predict Decoding

Marjan Ghazvininejad, Omer Levy|arXiv (Cornell University)|Jan 23, 2020

Topic Modeling参考文献 15被引用 48

一句话总结

SMART 训练提升条件掩码语言模型的 mask-predict 解码，弥合与自回归模型的大部分差距并提升翻译质量。

ABSTRACT

The recently proposed mask-predict decoding algorithm has narrowed the performance gap between semi-autoregressive machine translation models and the traditional left-to-right approach. We introduce a new training method for conditional masked language models, SMART, which mimics the semi-autoregressive behavior of mask-predict, producing training examples that contain model predictions as part of their inputs. Models trained with SMART produce higher-quality translations when using mask-predict decoding, effectively closing the remaining performance gap with fully autoregressive models.

研究动机与目标

激发并解决训练与半自回归 mask-predict 解码之间的不匹配。
提出 SMART 训练，使训练阶段对基于预测的输入有更好的反映。
在标准 MT 基准上评估 SMART，并与 NART 和自回归基线进行比较。
分析训练选择（例如预测所有标记、前向传播次数）如何影响性能和鲁棒性。

提出的方法

从一个金标准目标序列开始，掩蔽随机子集以创建 Y_gold。
预测整个序列以从部分观测的 Y_gold_obs 获得 Y_pred。
从 Y_pred 中再掩蔽一个新的随机子集，创建训练输入 Y_pred_obs，并训练以预测金标准 Y_gold。
使用对所有标记的交叉熵进行训练，以允许纠正观测到的预测中的错误。
也可选地将 mask-predict 的预测步骤修改为预测所有标记（不仅仅是被掩蔽的），以增强鲁棒性。

实验结果

研究问题

RQ1与原始 NART 训练相比，使用 mask-predict 解码时 SMART 训练是否提升翻译质量？
RQ2在标准 MT 基准上，SMART 训练的模型与完全自回归基线的接近程度如何？
RQ3哪些训练变体（如预测所有标记 vs. 仅预测被掩蔽的标记、前向传播次数）会影响性能？
RQ4SMART 在不同语言对和 mask-predict 的解码迭代次数（T）下的表现如何？
RQ5训练示例难度（金标准掩蔽比例）对学习有哪些影响？

主要发现

SMART 在各基准上比 NART 有更高的 BLEU，平均提升 +0.71 BLEU。
使用 10 次解码迭代，SMART 在 WMT’14 EN-DE 上达到 27.65 BLEU，接近强自回归基线的 27.75 BLEU。
SMART 在 10 次迭代下的 mask-predict 在 WMT’17 上达到 31.27（DE-EN）和 34.06（EN-ZH），接近自回归性能。
在预测阶段预测所有标记并结合 SMART，使开发集在 4 次迭代时获得约 ~0.40 BLEU 的增益。
增加迭代次数通常缩小与自回归模型的差距，在某些基准上表现达到相等或接近相等。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。