Skip to main content
QUICK REVIEW

[论文解读] A Generalized Framework of Sequence Generation with Application to Undirected Sequence Models

Elman Mansimov, Alex Wang|arXiv (Cornell University)|May 29, 2019
Natural Language Processing Techniques参考文献 29被引用 46
一句话总结

该论文提出一个泛化框架,将有向与无向神经序列模型的解码统一起来,使得从像 BERT 这样的模型中实现常数时间和自适应阶生成,并在 WMT’14 En-De 上展示了对多种解码策略具竞争力的机器翻译结果。

ABSTRACT

Undirected neural sequence models such as BERT (Devlin et al., 2019) have received renewed interest due to their success on discriminative natural language understanding tasks such as question-answering and natural language inference. The problem of generating sequences directly from these models has received relatively little attention, in part because generating from undirected models departs significantly from conventional monotonic generation in directed sequence models. We investigate this problem by proposing a generalized model of sequence generation that unifies decoding in directed and undirected models. The proposed framework models the process of generation rather than the resulting sequence, and under this framework, we derive various neural sequence models as special cases, such as autoregressive, semi-autoregressive, and refinement-based non-autoregressive models. This unification enables us to adapt decoding algorithms originally developed for directed sequence models to undirected sequence models. We demonstrate this by evaluating various handcrafted and learned decoding strategies on a BERT-like machine translation model (Lample & Conneau, 2019). The proposed approach achieves constant-time translation results on par with linear-time translation results from the same undirected sequence model, while both are competitive with the state-of-the-art on WMT'14 English-German translation.

研究动机与目标

  • 从无向神经序列模型(如 BERT)出发进行解码的动机并形式化一个以生成为中心的框架。
  • 通过将长度、坐标(位置)选择和符号替换分离,统一有向与无向模型的解码。
  • 在框架内推导单调自回归、非自回归和半自回归解码为特例。
  • 在 MT 任务上开发并评估无向模型的确定性与学习型解码策略。
  • 展示具有竞争力的极限时间解码变体,达到与自回归基线相当的性能。

提出的方法

  • 定义一个生成过程 G,具有中间序列 Y^t 和坐标序列 Z^t,通过长度预测 p(L|X)、坐标选择 p(z^{t+1}_i|Y^{≤t},Z^t,X) 以及符号替换 p(y^{t+1}_i|Y^{≤t},Z^{t+1},X) 来建模 p(G|X)。
  • 证明单调自回归、非自回归迭代细化和半自回归解码是该框架的特例。
  • 实例化对数线性或学习型坐标选择器以自适应生成顺序,包括具有负熵、对数概率和位置偏置等特征的自适应吉布斯采样方案。
  • 把吉布斯采样置于广义框架之内,以通过长度条件的束搜索实现确定性乐观解码。
  • 使用强化学习(PPO)训练坐标选择策略,以基于生成质量(编辑距离变化)最大化奖励。
  • 在 WMT’14 英德翻译任务上使用掩码翻译模型(预训练的 BERT-like)评估解码策略,并与从左到右自回归基线进行比较。

实验结果

研究问题

  • RQ1是否可以在一个以生成为中心的框架下,将来自无向序列模型的解码与有向模型统一?
  • RQ2不同的坐标选择和符号替换策略在无向模型中如何影响翻译质量?
  • RQ3在无向模型中,确定性解码与学习型解码在 BLEU 和效率方面的权衡如何?
  • RQ4来自无向模型的常数时间解码是否能达到与线性时间或自回归方法相当的性能?
  • RQ5自适应排序(从左到右、外部向内、学习策略)是否成为带掩码语言模型的机器翻译的有益策略?

主要发现

  • 该框架将多种解码范式(自回归、非自回归、半自回归)统一到一个生成过程之下。
  • 确定性坐标选择策略(从左到右、最少到最多、易先、学习型)在 En–De 和 De–En 上的表现优于均匀坐标选择,提升幅度约为 3 BLEU 左右。
  • 束搜索在贪心解码之上提升约 1 BLEU。
  • 用自回归模型重新评分可再增加约 1 BLEU。
  • 学习型和从左到右策略提供最强性能,其中从左到右在 MT 任务上达到 25.66 BLEU(En→De),学习达到 30.58 BLEU(De→En)。
  • 在预算 T 和 o_t 设置下的常数时间解码可以达到线性时间解码的表现,并接近最先进的自回归性能(例如在 De→En 的某些设置下,30.13 对 30.92 BLEU)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。