[论文解读] Insertion Transformer: Flexible Sequence Generation via Insertion Operations
论文介绍了 Insertion Transformer,一种灵活的序列生成器,可在任意位置插入标记,从而实现不同训练顺序下的串行与并行解码,在使用对数数量的解码迭代的同时实现具有竞争力的翻译质量。
We present the Insertion Transformer, an iterative, partially autoregressive model for sequence generation based on insertion operations. Unlike typical autoregressive models which rely on a fixed, often left-to-right ordering of the output, our approach accommodates arbitrary orderings by allowing for tokens to be inserted anywhere in the sequence during decoding. This flexibility confers a number of advantages: for instance, not only can our model be trained to follow specific orderings such as left-to-right generation or a binary tree traversal, but it can also be trained to maximize entropy over all valid insertions for robustness. In addition, our model seamlessly accommodates both fully autoregressive generation (one insertion at a time) and partially autoregressive generation (simultaneous insertions at multiple locations). We validate our approach by analyzing its performance on the WMT 2014 English-German machine translation task under various settings for training and decoding. We find that the Insertion Transformer outperforms many prior non-autoregressive approaches to translation at comparable or better levels of parallelism, and successfully recovers the performance of the original Transformer while requiring only logarithmically many iterations during decoding.
研究动机与目标
- 在序列建模中说明并解决固定的从左到右自回归生成的局限性。
- 提出一个基于插入的迭代解码框架,使输出画布的任意位置都可以插入标记。
- 实现完全自回归(一次一个插入)和部分自回归(同时插入)的解码。
- 探索不同的训练顺序(从左到右、平衡二叉树、均匀/最大熵目标)以提升鲁棒性和效率。
- 在 WMT 2014 英-德上展示对数解码迭代次数和并行解码能力下的有竞争力的 BLEU 结果。
提出的方法
- 用插入操作取代标准自回归解码,在当前画布的任意位置添加标记。
- 使用一个改造后的 Transformer 解码器,提供槽位表示并通过完全解码器自注意力对整个画布进行注意。
- 以联合分布(内容、位置)或分解形式(p(c|l), p(l))对内容-位置分布进行建模。
- 结合上下文化词汇偏置和可选的混合软最大化以应对大输出空间。
- 使用特定顺序的损失进行训练:从左到右、以中心为重点的平衡二叉树或均匀/最大熵损失;包含终止处理(槽位或序列完成)和一个 EOS 惩罚以控制长度。
- 推断支持 greedy 解码以及在训练为槽位完成时的跨槽并行解码,在有利配置下实现对数级迭代次数。
实验结果
研究问题
- RQ1插入式生成是否能够在实现高效并行解码的同时达到或超过自回归和非自回归翻译质量?
- RQ2不同的训练顺序(从左到右、平衡二叉树、均匀熵)及架构变体如何影响性能和解码效率?
- RQ3模型是否能够在不事先预测固定目标长度的情况下动态增长输出长度?
- RQ4解码和训练中槽位完成与序列完成的终止策略之间有哪些权衡?
- RQ5并行插入在不牺牲 BLEU 性能的前提下,能否达到子线性(log2 n)解码迭代?
主要发现
| 模型 | BLEU | 迭代次数 |
|---|---|---|
| 自回归 Transformer (Vaswani et al., 2017) | 27.3 | n |
| 半自回归从左到右(SAT) | 24.83 | n/6 |
| 分块并行(Stern et al., 2018) | 27.40 | ≈n/5 |
| 非自回归 NAT(Gu et al., 2018) | 17.69 | 1 |
| 迭代细化(Lee et al., 2018) | 21.61 | 10 |
| Insertion Transformer + 从左到右(Greedy) | 23.94 | n |
| Insertion Transformer + 二叉树(Greedy) | 27.29 | n |
| Insertion Transformer + Uniform(Greedy) | 27.12 | n |
| Insertion Transformer + 二叉树(并行) | 27.41 | ≈log2 n |
| Insertion Transformer + Uniform(并行) | 26.72 | ≈log2 n |
- Insertion Transformer 可以在 WMT 2014 英-德上达到 Transformer 级别的性能,同时使用对数数量的解码迭代。
- 具有槽位完成的并行解码在 BLEU 上达到与贪心解码相当甚至略高,显示出高并行生成的有效性。
- 带蒸馏的二叉树损失获得强结果,在贪心解码的开发集 BLEU 为 25.80,范围为 25.80–27.29,取决于设置。
- EOS 惩罚显著提升性能,防止过早终止;调整后的惩罚在某些设置中可将 BLEU 提升约 4 点。
- 并行解码方案接近理论下界 ⌊log2 n⌋+1 次迭代,在实际中对于常见句长很少需要超过约 10 次迭代。
- 不同的架构变体(联合 vs 条件内容-位置建模、上下文化词汇偏置、混合软最大化)相比基线提供适度提升,且在正确的 EOS 调整后提升减弱。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。