[论文解读] Insertion-based Decoding with automatically Inferred Generation Order
本文提出 InDIGO,一种新型的基于插入的解码方法,通过在自回归解码过程中将位置建模为相对偏移,推断灵活的生成顺序。通过在 Transformer 中引入对相对位置敏感的自注意力机制,InDIGO 实现了自适应的、非从左到右的生成,且在机器翻译、代码生成、图像字幕生成和词序恢复等任务中实现了具有竞争力或更优的性能,无需重新编码或蒸馏知识。
Conventional neural autoregressive decoding commonly assumes a fixed left-to-right generation order, which may be sub-optimal. In this work, we propose a novel decoding algorithm -- InDIGO -- which supports flexible sequence generation in arbitrary orders through insertion operations. We extend Transformer, a state-of-the-art sequence generation model, to efficiently implement the proposed approach, enabling it to be trained with either a pre-defined generation order or adaptive orders obtained from beam-search. Experiments on four real-world tasks, including word order recovery, machine translation, image caption and code generation, demonstrate that our algorithm can generate sequences following arbitrary orders, while achieving competitive or even better performance compared to the conventional left-to-right generation. The generated sequences show that InDIGO adopts adaptive generation orders based on input information.
研究动机与目标
- 为解决神经自回归模型中固定从左到右生成顺序的局限性,该顺序在某些任务中可能并非最优。
- 开发一种无需在每一步重新编码序列的解码算法,以支持任意生成顺序。
- 使模型能够基于输入上下文自适应地推断最优生成顺序,而非依赖预定义或固定的顺序。
- 通过引入相对位置预测的插入式生成,在保持计算效率的同时提升序列生成性能。
- 证明自适应生成顺序可优于传统从左到右的解码方式,在多种序列生成任务中表现更优。
提出的方法
- 模型使用基于相对位置的表示来编码生成顺序作为隐变量,避免使用绝对位置。
- 在每个解码步骤中,模型联合预测下一个标记及其在输出序列中的相对插入位置。
- 借鉴 Shaw 等人(2018)的方法,扩展 Transformer 架构以引入相对位置编码,支持动态插入操作。
- 使用最大似然目标的证据下界(ELBO)进行训练,对生成顺序引入近似后验分布。
- 采用两种推理策略:一种使用预定义顺序,另一种使用束搜索以推断自适应顺序。
- 最终通过在推断的相对位置插入预测标记来构建序列,保持自回归生成特性。
实验结果
研究问题
- RQ1与传统的从左到右解码相比,灵活的、非从左到右的生成顺序是否能提升序列生成性能?
- RQ2模型能否基于输入上下文自动推断最优生成顺序,而非依赖固定或人工设计的顺序?
- RQ3基于插入的解码结合相对位置预测是否能在不需重新编码或知识蒸馏的情况下实现具有竞争力的性能?
- RQ4自适应生成顺序如何随输入内容变化?能否通过束搜索有效学习?
- RQ5所提出的方法能否在机器翻译、代码生成和图像字幕生成等多样化序列生成任务中实现泛化?
主要发现
- InDIGO 在四项真实世界任务(机器翻译、词序恢复、代码生成和图像字幕生成)中实现了与从左到右自回归模型相当或更优的性能。
- 案例研究显示,该模型成功学习到基于输入内容的自适应生成顺序。
- InDIGO 在词序恢复和图像字幕生成任务上优于基线的从左到右 Transformer 模型,证明了灵活排序的优势。
- 与先前的插入式模型不同,InDIGO 在每一步均无需重新编码部分序列,因此比使用绝对位置的方法更高效。
- 该方法在不使用知识蒸馏的情况下实现了强劲性能,而类似工作如 Stern 等人(2019)则需依赖蒸馏才能获得竞争力结果。
- 使用相对位置可实现高效的注意力计算,避免了重新编码带来的计算开销,使该方法具备可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。