QUICK REVIEW

[论文解读] Minimum Risk Training for Neural Machine Translation

Shiqi Shen, Yong Cheng|arXiv (Cornell University)|Dec 8, 2015

Natural Language Processing Techniques参考文献 24被引用 43

一句话总结

本文提出最小风险训练（MRT）用于端到端神经机器翻译，直接针对任意不可微分的评估指标（如BLEU）优化模型参数，而非最大似然估计。通过最小化候选翻译分布上的期望损失，MRT在中文-英文等语言对上实现了显著提升，BLEU得分最高提升达2.1点。

ABSTRACT

We propose minimum risk training for end-to-end neural machine translation. Unlike conventional maximum likelihood estimation, minimum risk training is capable of optimizing model parameters directly with respect to arbitrary evaluation metrics, which are not necessarily differentiable. Experiments show that our approach achieves significant improvements over maximum likelihood estimation on a state-of-the-art neural machine translation system across various languages pairs. Transparent to architectures, our approach can be applied to more neural networks and potentially benefit more NLP tasks.

研究动机与目标

解决最大似然估计（MLE）在NMT中的局限性，即优化词级别似然而非句级别评估指标。
实现神经机器翻译模型对任意不可微分评估指标（如BLEU、ROUGE或METEOR）的直接优化。
开发一种与模型架构无关的训练框架，适用于任何端到端NMT系统。
通过最小化候选翻译分布上的期望风险，而非依赖1-best假设，提升翻译质量。

提出的方法

提出最小风险训练目标，最小化每个源句在完整候选翻译搜索空间上的期望损失（风险）。
使用蒙特卡洛采样近似模型输出分布上的期望损失，实现高效的梯度估计。
采用带温度参数α的平滑误差计数方法，处理不可微分指标，使损失函数可反向传播。
引入重参数化技巧，即使评估指标不可微，也能计算期望损失关于模型参数的梯度。
采用软策略采样多样化翻译并计算期望风险，提升泛化能力并增强与人类参考译文的一致性。
通过不假设特定模型结构或组件，保持与任何NMT架构的兼容性。

实验结果

研究问题

RQ1最小风险训练能否通过直接优化句级别评估指标（如BLEU）而非词级别似然，提升神经机器翻译性能？
RQ2在多种语言对上，MRT与最大似然估计相比，在BLEU得分提升方面表现如何？
RQ3MRT在远距离语言对（如中文-英文）上的增益是否大于在近距离语言对（如英文-法文）上的增益？
RQ4MRT能否在无需架构修改的情况下有效应用于多种NMT架构？
RQ5在风险估计中使用多个候选翻译是否优于仅使用单一样本的REINFORCE方法？

主要发现

在中文-英文翻译中，MRT相比MLE提升2.1 BLEU点，表明在远距离语言对上取得显著增益。
在英文-法文翻译中，MRT相比MLE提升0.7 BLEU点，表明增益稳定但小于中文-英文对。
在英文-德文翻译中，尽管网络深度小于先前工作，MRT性能仍与最先进系统相当。
中文-英文对增益更大的原因在于每句话存在四条参考译文，增强了基于指标优化的有效性。
MRT在所有评估的语言对上均优于MLE，证实直接使用评估指标优化可提升翻译质量。
该方法具有有效性与泛化性，已成功扩展至标题生成任务，使用ROUGE指标实现显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。