[论文解读] An EM Approach to Non-autoregressive Conditional Sequence Generation
该论文提出了一种新颖的期望最大化(EM)框架,通过联合优化自回归(AR)与非自回归(NAR)模型,以解决NAR序列生成中的多模态问题。通过利用AR教师模型提供的后验近似,迭代地优化NAR模型,并根据模型表现动态更新训练数据,该方法在显著降低推理延迟的同时,实现了具有竞争力的翻译准确率,优于现有NAR模型在速度与质量方面的表现。
Autoregressive (AR) models have been the dominating approach to conditional sequence generation, but are suffering from the issue of high inference latency. Non-autoregressive (NAR) models have been recently proposed to reduce the latency by generating all output tokens in parallel but could only achieve inferior accuracy compared to their autoregressive counterparts, primarily due to a difficulty in dealing with the multi-modality in sequence generation. This paper proposes a new approach that jointly optimizes both AR and NAR models in a unified Expectation-Maximization (EM) framework. In the E-step, an AR model learns to approximate the regularized posterior of the NAR model. In the M-step, the NAR model is updated on the new posterior and selects the training examples for the next AR model. This iterative process can effectively guide the system to remove the multi-modality in the output sequences. To our knowledge, this is the first EM approach to NAR sequence generation. We evaluate our method on the task of machine translation. Experimental results on benchmark data sets show that the proposed approach achieves competitive, if not better, performance with existing NAR models and significantly reduces the inference latency.
研究动机与目标
- 为解决自回归(AR)与非自回归(NAR)模型在条件序列生成中因输出分布的多模态性而产生的性能差距。
- 克服单次知识蒸馏在NAR训练中的局限性,即预训练的AR模型生成固定训练目标,可能无法最优地表示多模态输出。
- 开发一种联合优化框架,使AR与NAR模型在闭环中实现迭代改进,提升泛化能力并降低推理延迟。
- 设计一种系统性、即插即用的解码方法,有效去除NAR模型输出中的词重复。
提出的方法
- 该方法采用EM风格的迭代框架:在E-step中,利用当前参数,由AR模型近似NAR模型的正则化后验分布。
- 在M-step中,基于AR模型预测结果动态更新训练集,对质量较高且多模态性较低的样本进行选择,重新训练NAR模型。
- 通过参数化AR模型对后验分布进行近似,实现在E-step中高效且可扩展的推理。
- 提出一种新颖的最优去重解码(ODD)方法,系统性地去除NAR输出中的词重复,优于启发式后处理方法。
- 框架在E-step与M-step之间交替更新,在温和假设下保证收敛,并基于验证性能引入早停机制。
- 该方法应用于机器翻译任务,采用BLEU与归一化语料级多模态性(NCM)作为评估指标。
实验结果
研究问题
- RQ1迭代式EM框架能否联合优化AR与NAR模型,以更好地处理序列生成中的多模态输出分布?
- RQ2与单次蒸馏相比,将静态知识蒸馏替换为迭代反馈驱动的训练循环,是否能提升NAR模型性能?
- RQ3在E-step中使用教师AR模型进行近似推理,是否能提升NAR模型训练的质量与稳定性?
- RQ4所提出的最优去重解码(ODD)方法在减少词重复方面,相较于启发式后处理方法有多高效?
- RQ5与最先进NAR模型相比,EM方法是否在实现更快推理速度的同时,保持或超越其翻译准确率?
主要发现
- 所提出的EM方法在WMT14 En-De翻译任务上达到25.75的测试BLEU分数,优于现有NAR模型,且接近AR模型性能,同时显著降低推理延迟。
- 归一化语料级多模态性(NCM)指标在训练过程中单调下降,表明输出分布中的多模态性得到有效缓解。
- ODD解码方法在WMT14 En-De数据集上相较后处理去重,BLEU提升0.89分,证明其在处理词重复方面的优越性。
- 该方法在10次迭代内完成收敛,显示出高效的优化能力,并基于验证性能实现早停。
- 与非近似训练相比,E-step中使用AR模型进行近似推理使NAR性能平均提升0.49 BLEU分,证实其有效性。
- 该框架在推理阶段实现显著加速,NAR模型可并行生成序列,而自回归模型需逐标记解码。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。