[论文解读] Reward Augmented Maximum Likelihood for Neural Structured Prediction
本文提出奖励增强最大似然(RAML),一种通过将任务特定奖励融入最大似然训练来改进神经结构化预测的方法。通过按奖励指数加权的比例采样输出(例如,与标准答案的逆编辑距离成比例),RAML 在这些增强输出上优化对数似然,相较于标准最大似然方法在语音识别(TIMIT)和机器翻译(WMT’14)任务中取得显著提升,BLEU 提升最高达 +0.8,PER 降低 0.6。
A key problem in structured output prediction is direct optimization of the task reward function that matters for test evaluation. This paper presents a simple and computationally efficient approach to incorporate task reward into a maximum likelihood framework. By establishing a link between the log-likelihood and expected reward objectives, we show that an optimal regularized expected reward is achieved when the conditional distribution of the outputs given the inputs is proportional to their exponentiated scaled rewards. Accordingly, we present a framework to smooth the predictive probability of the outputs using their corresponding rewards. We optimize the conditional log-probability of augmented outputs that are sampled proportionally to their exponentiated scaled rewards. Experiments on neural sequence to sequence models for speech recognition and machine translation show notable improvements over a maximum likelihood baseline by using reward augmented maximum likelihood (RAML), where the rewards are defined as the negative edit distance between the outputs and the ground truth labels.
研究动机与目标
- 解决最大似然训练在结构化预测中的局限性,即对所有错误输出一视同仁,而不论其与标准答案的接近程度。
- 克服 BLEU 和词错误率等常见评估指标的不可微性和稀疏性,这些指标难以直接优化。
- 开发一种计算高效的强化学习方法替代方案,避免高方差策略梯度和训练期间复杂的采样过程。
- 通过引入正则化目标,弥合最大似然与期望奖励优化之间的差距,使模型更倾向于高奖励输出。
- 在保持标准最大似然训练计算效率和实现简便性的前提下,实现对任务特定奖励的直接优化。
提出的方法
- 提出一种奖励增强目标:对于每个输入,以与 exp(β × R(y|x)) 成比例的概率采样输出,其中 R(y|x) 是给定输入 x 的输出 y 的奖励,β 为温度超参数。
- 优化这些采样输出的条件对数似然,而非标准答案,从而有效正则化模型,使其为高奖励输出分配更高的概率。
- 理论分析表明,RAML 最小化了指数奖励分布与模型预测分布之间的 KL 散度,最优解在期望奖励与熵之间实现平衡。
- 使用温度参数 τ(即 β 的倒数)控制采样分布的集中程度:τ 越低,越聚焦于高奖励输出。
- 将该方法应用于基于注意力机制的 RNN 序列到序列模型,其中奖励定义为生成序列与参考序列之间负编辑距离(或汉明距离)。
- 使用标准随机梯度下降进行训练,采用异步更新,基线模型与 RAML 模型保持相同的架构和超参数。
实验结果
研究问题
- RQ1我们能否在不引入高方差策略梯度更新的情况下,通过引入任务特定奖励来改进结构化预测中的最大似然训练?
- RQ2在优化不可微指标(如 BLEU 或词错误率)时,RAML 的性能与标准最大似然训练相比如何?
- RQ3在结构化预测任务中,实现最佳泛化性能的奖励增强程度(即温度 τ)应如何选择?
- RQ4基于奖励比例的采样是否能比标准似然训练更好地对齐测试时的评估指标?
- RQ5RAML 是否能以最小的架构修改,有效应用于机器翻译和语音识别中的序列到序列模型?
主要发现
- 在 TIMIT 语音识别数据集上,RAML 在开发集上将音素错误率(PER)降低了最多 0.6 个百分点,在测试集上降低了 0.8 个百分点,优于最大似然基线。
- 在 WMT’14 英语到法语机器翻译基准上,RAML 在 τ=0.85 时平均 BLEU 得分为 36.91,最高 BLEU 达 37.23,分别优于 ML 基线 0.41 和 0.36 个点。
- 最优温度 τ 在机器翻译任务中为 0.85,在语音识别任务中为 1.00,表明奖励强调程度取决于任务和奖励函数。
- 当增强过强时(例如 τ < 0.75),性能下降,表明过度强调高奖励输出会损害泛化能力。
- RAML 的性能在多个随机种子和评估运行中保持一致,表明其具有鲁棒性和可复现性。
- 尽管方法简单,RAML 显著优于强大的最大似然基线,证明奖励感知训练可在无需复杂训练流程的情况下提升模型性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。