[论文解读] Sequence Level Training with Recurrent Neural Networks
本文提出 MIXER,一种用于循环神经网络的序列级训练方法,可减少暴露偏差并直接优化 BLEU 和 ROUGE 等评估指标。通过结合交叉熵预训练与基于 REINFORCE 的增量策略学习,MIXER 实现了最先进的贪婪生成性能——超越强基线模型甚至使用束搜索增强的模型——且在摘要生成和图像字幕生成任务中速度显著更快。
Many natural language processing applications use language models to generate text. These models are typically trained to predict the next word in a sequence, given the previous words and some context such as an image. However, at test time the model is expected to generate the entire sequence from scratch. This discrepancy makes generation brittle, as errors may accumulate along the way. We address this issue by proposing a novel sequence level training algorithm that directly optimizes the metric used at test time, such as BLEU or ROUGE. On three different tasks, our approach outperforms several strong baselines for greedy generation. The method is also competitive when these baselines employ beam search, while being several times faster.
研究动机与目标
- 解决序列生成中的暴露偏差问题,即模型在训练时使用真实输入,但在推理时却基于自身预测进行推理。
- 直接优化序列级评估指标(如 BLEU 和 ROUGE),这些指标不可微且具有组合复杂性。
- 在文本生成中典型的大动作空间中实现有效的强化学习,其中随机策略探索会失效。
- 开发一种既高效又有效的训练方法,避免在推理阶段使用昂贵的束搜索。
- 证明即使结合束搜索,使用策略优化的序列级训练也可超越标准交叉熵训练。
提出的方法
- MIXER 使用结合交叉熵与 REINFORCE 的混合损失进行模型训练,从交叉熵预训练策略而非随机策略开始。
- 该方法采用增量学习,逐步增加训练过程中模型生成标记的比例,以模拟推理时的行为。
- 应用 REINFORCE 算法基于采样序列优化期望奖励(如 BLEU 或 ROUGE),避免对可微奖励的依赖。
- 每步使用单一样本估计策略梯度,并引入基线以降低方差。
- 该方法与模型无关,可应用于任意序列模型(包括 RNN),并兼容任意可微奖励函数。
- 通过网格搜索调整训练调度,以平衡探索与利用,确保收敛。
实验结果
研究问题
- RQ1与标准的下一个词预测相比,使用强化学习进行序列级训练是否能提升文本生成质量?
- RQ2用交叉熵预训练策略替代随机策略初始化,是否能在大动作空间中实现稳定训练?
- RQ3MIXER 是否能在性能和推理速度上均超越强基线模型(如结合束搜索的交叉熵)?
- RQ4增量学习与混合损失的结合在减少暴露偏差方面有多有效?
- RQ5在实践中,直接优化 BLEU 和 ROUGE 等指标是否可行且有益?
主要发现
- 在摘要生成任务中,MIXER 使用贪婪生成获得 ROUGE-2 得分为 16.22,优于 XENT 基线(13.01)和 DAD(12.18)。
- 在机器翻译任务中,MIXER 达到 BLEU-4 得分为 20.73,超过 XENT 基线(17.74)和 DAD(20.12)。
- 在图像字幕生成任务中,MIXER 达到 BLEU-4 得分为 29.16,超过 XENT(27.8)和 DAD(28.16)。
- 在三项任务中的两项中,MIXER 使用贪婪搜索的性能优于 XENT 结合束搜索(k=10),证明其在效率和性能上的优越性。
- 该方法在所有任务中至少比 k=10 的束搜索快 10 倍,同时保持或超越性能表现。
- 将 MIXER 与束搜索结合可进一步提升结果,但增益因任务而异,表明 MIXER 与束搜索具有互补性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。