[论文解读] BANG: Bridging Autoregressive and Non-autoregressive Generation with Large Scale Pretraining
BANG 是一种统一的预训练框架,通过训练单个模型来处理任意组合的掩码标记和真实历史标记,从而弥合自回归(AR)与非自回归(NAR)生成之间的差距。它在问题生成、摘要生成和对话任务中实现了 NAR 和半 NAR 生成的最先进性能,分别在 SQuAD 1.1 和 XSum 上取得了 14.01 和 5.24 的绝对提升,同时在 AR 生成中与强大的 AR 模型表现相当。
In this paper, we propose BANG, a new pretraining model to Bridge the gap between Autoregressive (AR) and Non-autoregressive (NAR) Generation. AR and NAR generation can be uniformly regarded as to what extent previous tokens can be attended, and BANG bridges AR and NAR generation by designing a novel model structure for large-scale pretraining. The pretrained BANG model can simultaneously support AR, NAR and semi-NAR generation to meet different requirements. Experiments on question generation (SQuAD 1.1), summarization (XSum) and dialogue generation (PersonaChat) show that BANG improves NAR and semi-NAR performance significantly as well as attaining comparable performance with strong AR pretrained models. Compared with the semi-NAR strong baselines, BANG achieves absolute improvements of 14.01 and 5.24 in the overall scores of SQuAD 1.1 and XSum, respectively. In addition, BANG achieves absolute improvements of 10.73, 6.39 and 5.90 in the overall scores of SQuAD, XSUM and PersonaChat respectively compared with the strong NAR baselines.
研究动机与目标
- 弥合自然语言生成中自回归(AR)与非自回归(NAR)生成之间的性能差距。
- 开发一种统一的预训练框架,使用单一模型架构支持 AR、NAR 和半 NAR 生成。
- 通过结合混合注意力模式的大规模预训练,提升一般自然语言生成任务中 NAR 生成的性能。
- 通过一种新颖的跨流可见 n 流自注意力机制,实现在多种注意力机制(AR、NAR、半 NAR)下的高效并行训练。
提出的方法
- BANG 使用一种跨流可见 n 流自注意力机制对解码器进行预训练,使模型在训练期间能够任意组合地关注掩码标记([MASK])和真实历史标记。
- 在预训练过程中,每个目标标记均使用由任意数量的真实历史标记和任意数量的 [MASK] 标记组成的上下文进行预测,从而统一建模 AR、NAR 和半 NAR 模式。
- 该模型在预训练和微调阶段均使用单一架构,支持直接微调用于 AR、NAR 或半 NAR 生成,无需架构更改。
- 跨流可见 n 流注意力机制支持在多个注意力流之间高效并行化,每个流对应一种不同的 [MASK] 与真实标记长度的组合。
- 预训练在 16GB 英文文本(Wikipedia 和 BookCorpus)上进行,通过动态掩码历史标记,将目标在 AR 和 NAR 生成之间插值。
实验结果
研究问题
- RQ1一个单一的预训练框架能否通过建模多样的注意力模式,有效统一 AR 和 NAR 生成?
- RQ2在一般自然语言生成任务中,使用混合 AR 和 NAR 目标进行预训练是否能显著提升 NAR 生成性能?
- RQ3统一模型能否在实现与 AR 生成相当的竞争力表现的同时,也支持高性能的 NAR 和半 NAR 推理?
- RQ4跨流可见 n 流注意力机制如何实现对多种注意力配置的高效训练?
主要发现
- 与强大的半 NAR 基线相比,BANG 在 SQuAD 1.1 和 XSum 上分别取得了 14.01 和 5.24 的绝对性能提升。
- 与强大的 NAR 基线相比,BANG 在 SQuAD、XSum 和 PersonaChat 上的总体得分分别提升了 10.73、6.39 和 5.90 分。
- 在 NAR 微调中,BANG 超过了 NAR 和 AR 预训练模型(如 MASS),证明了其桥接式预训练策略的优越性。
- 在 AR 生成中,BANG 达到了与强大 AR 预训练模型(如 BART)相当的性能,表明统一预训练未造成性能下降。
- 跨流可见 n 流注意力机制支持任意组合的 [MASK] 与真实标记长度,实现了对灵活生成模式的高效训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。