QUICK REVIEW

[论文解读] Non-Monotonic Sequential Text Generation

Sean Welleck, Kianté Brantley|arXiv (Cornell University)|Feb 5, 2019

Natural Language Processing Techniques被引用 63

一句话总结

本文提出一个训练文本生成器的框架，通过二叉树基策略通过模仿学习学习非单调生成顺序，在与从左到右模型竞争的性能上具有竞争力。

ABSTRACT

Standard sequential generation methods assume a pre-specified generation order, such as text generation methods which generate words from left to right. In this work, we propose a framework for training models of text generation that operate in non-monotonic orders; the model directly learns good orders, without any additional annotation. Our framework operates by generating a word at an arbitrary position, and then recursively generating words to its left and then words to its right, yielding a binary tree. Learning is framed as imitation learning, including a coaching method which moves from imitating an oracle to reinforcing the policy's own preferences. Experimental results demonstrate that using the proposed method, it is possible to learn policies which generate text without pre-specifying a generation order, while achieving competitive performance with conventional left-to-right generation.

研究动机与目标

在没有外部监督的情况下，推动对非单调生成顺序的探索。
开发一个树基生成框架，能够以任意顺序输出序列。
将学习形式化为带有道具和指导来引导策略学习。
证明非单调生成在多任务上可以匹配或超越左到右基线。

提出的方法

将生成过程建模为通过层序遍历构造二叉树，并通过中序遍历输出最终序列。
将策略表示为神经网络（LSTM或Transformer），给定一个部分树，输出可能的下一个token或结束token的分布。
将学习框架化为带roll-in/roll-out的模仿学习，使用oracle策略和基于KL散度的成本来使学习者的行动与oracle的偏好对齐。
引入训练和退火式教练oracle来逐步将学习者偏向其自身偏好，同时保持探索。
允许对输入X进行条件化（例如用于翻译或图像描述），通过对X进行编码并用其初始化或调制策略状态。
提供将结束token预测与token预测分离的变体，并可选地加入显式的树编码以实现改进。

实验结果

研究问题

RQ1文本生成器是否能够在没有预先指定的单调顺序的情况下学习有用的生成顺序？
RQ2相比传统的从左到右模型，非单调生成策略在语言建模、重新排序和翻译等任务中有多大效果？
RQ3哪些学习到搜索的策略（oracle定义、roll-in/roll-out方案）最有助于训练非单调序列生成？
RQ4退火式教练是否比均匀或纯教练oracle在探索和最终性能上有改进？
RQ5在如翻译等条件生成中，是否可以在没有手工设计监督的前提下使框架对辅助输入进行条件化？

主要发现

该框架使得学习生成策略成为可能，不依赖固定顺序，且可以表现出先易后难的行为。
使用退火式教练训练的策略往往生成更流畅、新颖的句子，并在验证数据上的Bleu类质量接近其他非单调设置。
在单词重新排序任务中，退火和均匀策略在F1上可超过从左到右基线，并在验证集和测试集上保持Bleu分数的竞争力。
在机器翻译中，非单调策略实现与从左到右模型的竞争性指标，退火变体在多项指标上常接近或超过基线质量。
该方法通过Transformer为基础的策略和结束-token处理，在没有标准自回归解码约束的情况下实现成功的条件生成（如翻译）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。