QUICK REVIEW

[论文解读] Learning to Decode for Future Success

Jiwei Li, Will Monroe|arXiv (Cornell University)|Jan 23, 2017

Topic Modeling参考文献 35被引用 50

一句话总结

介绍一种简单的解码策略，将基于MLE的策略与未来结果预测器结合起来，以引导生成朝向目标属性，如序列长度、互信息以及BLEU/ROUGE分数，从而在翻译、摘要和对话任务中提升性能。

ABSTRACT

We introduce a simple, general strategy to manipulate the behavior of a neural decoder that enables it to generate outputs that have specific properties of interest (e.g., sequences of a pre-specified length). The model can be thought of as a simple version of the actor-critic model that uses an interpolation of the actor (the MLE-based token generation policy) and the critic (a value function that estimates the future values of the desired property) for decision making. We demonstrate that the approach is able to incorporate a variety of properties that cannot be handled by standard neural sequence decoders, such as sequence length and backward probability (probability of sources given targets), in addition to yielding consistent improvements in abstractive summarization and machine translation when the property to be optimized is BLEU or ROUGE scores.

研究动机与目标

激发在超越标准MLE解码的情况下对可控神经序列生成的需求。
提出一种简单的受 actor-critic 启发的解码策略，将MLE策略与未来价值预测器线性插值。
证明该方法能够在跨任务中控制序列长度、互信息以及BLEU/ROUGE分数等属性。
在翻译、摘要和对话任务中，显示出相对于标准束搜索以及部分RL基线的经验改进。
讨论未来预测器在训练和解码中的设计变体及实际考虑。

提出的方法

定义一个值函数Q，用于估计在解码过程中选择一个标记时的未来结果。
下一个标记的评分为 S(y_t)=log p(y_t|h_{t-1}) + gamma * Q(X, y_{1:t}).
训练Q以从(X, y_{1:t})预测最终的未来结果q(Y)（例如BLEU/ROUGE、长度、互信息）。
在解码时使用局部MLE分数和预测的未来结果之间的线性插值来引导解码（由lambda控制）。
给出Q训练的变体，包括预测剩余长度、预测MI的后向概率p(X|Y)，或直接预测BLEU/ROUGE。
将带有Q的束搜索解码应用于鼓励长远目标，而不需要完整的策略更新。

实验结果

研究问题

RQ1在不进行完整RL训练的情况下，如何通过解码引导生成具有特定属性（例如固定长度、较高的互信息、较高的BLEU/ROUGE）的输出？
RQ2简单插值的 actor-critic 风格解码是否在翻译、摘要和对话任务中相对于标准束搜索和基于RL的解码器在质量与多样性上有所提升？
RQ3在实践中，训练和集成Q预测器以实现不同属性（长度、MI、BLEU/ROUGE）的有效方式是什么？

主要发现

提出的Q增强解码在多种生成任务中优于标准束搜索。
在对话的长度控制方面，该方法减少了短序列偏差，输出比标准束搜索更连贯；较大的lambda增加多样性，但若过大可能提高不相关性。
对于互信息，未来预测方法能够超越事后MMI重新排序，尤其对于较长的目标，在解码早期保持多样性的假设。
在优化BLEU/ROUGE时，未来结果函数有助于对齐训练和测试时的目标，并在基线SEQ2SEQ带束搜索上取得可测量的改进。
在各任务中，该方法提供了稳定的提升，并提供一种简单、通用的方式来定制解码器以实现所需属性，而无需大量的RL训练。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。