[論文レビュー] BANG: Bridging Autoregressive and Non-autoregressive Generation with Large Scale Pretraining
BANGは、1つのモデルを用いてマスク済みトークンと真値の過去トークンの任意の組み合わせを処理できる統合的プリトレーニングフレームワークであり、質問生成、要約、対話タスクにおいてNARおよびセミ-NAR生成で最先端の性能を達成している。SQuAD 1.1およびXSumでは、それぞれ14.01および5.24の絶対的向上を達成しており、AR生成においても強力なARモデルと同等の性能を示している。
In this paper, we propose BANG, a new pretraining model to Bridge the gap between Autoregressive (AR) and Non-autoregressive (NAR) Generation. AR and NAR generation can be uniformly regarded as to what extent previous tokens can be attended, and BANG bridges AR and NAR generation by designing a novel model structure for large-scale pretraining. The pretrained BANG model can simultaneously support AR, NAR and semi-NAR generation to meet different requirements. Experiments on question generation (SQuAD 1.1), summarization (XSum) and dialogue generation (PersonaChat) show that BANG improves NAR and semi-NAR performance significantly as well as attaining comparable performance with strong AR pretrained models. Compared with the semi-NAR strong baselines, BANG achieves absolute improvements of 14.01 and 5.24 in the overall scores of SQuAD 1.1 and XSum, respectively. In addition, BANG achieves absolute improvements of 10.73, 6.39 and 5.90 in the overall scores of SQuAD, XSUM and PersonaChat respectively compared with the strong NAR baselines.
研究の動機と目的
- 自然言語生成における自己回帰的(AR)と非自己回帰的(NAR)生成の性能格差を解消すること。
- 1つのモデルアーキテクチャを用いてAR、NAR、およびセミ-NAR生成をサポートする統合的プリトレーニングフレームワークを開発すること。
- 混合アテンションパターンを用いた大規模なプリトレーニングにより、一般の自然言語生成タスクにおけるNAR生成性能を向上させること。
- 新しいクロスストリーム可視nストリーム自己アテンション機構を用いて、AR、NAR、セミ-NARのさまざまなアテンション機構間で効率的な並列トレーニングを可能にすること。
提案手法
- BANGは、トレーニング中に任意の組み合わせのマスク済みトークン([MASK])と真値の過去トークンにアクセスできるクロスストリーム可視nストリーム自己アテンション機構を用いてデコーダーをプリトレーニングする。
- トレーニング中に、各ターゲットトークンは、任意の数の過去の真値トークンと任意の数の[マスク]トークンから構成されるコンテキストを用いて予測されるため、AR、NAR、およびセミ-NARパターンの統合的モデリングが可能になる。
- プリトレーニングとファインチューニングの両方で同一のアーキテクチャを用いるため、アーキテクチャの変更なしにAR、NAR、またはセミ-NAR生成に直接ファインチューニングが可能である。
- クロスストリーム可視nストリームアテンションにより、[マスク]と真値トークン長の異なる組み合わせに対応する複数のアテンションストリーム間で効率的な並列処理が可能になる。
- プリトレーニングは16GBの英語テキスト(WikipediaおよびBookCorpus)を用い、過去トークンの動的マスキングによりARとNAR生成の間を補間する目的関数で実施される。
実験結果
リサーチクエスチョン
- RQ1多様なアテンションパターンをモデリングすることで、1つのプリトレーニングフレームワークがARとNAR生成を効果的に統合できるか?
- RQ2ARとNARの目的関数を混合してプリトレーニングすることで、一般の自然言語生成タスクにおけるNAR生成性能が顕著に向上するか?
- RQ3統合モデルが、アーキテクチャの変更なしにAR生成においても競争力のある性能を達成できるか、またNARおよびセミ-NAR推論においても高い性能を発揮できるか?
- RQ4クロスストリーム可視nストリームアテンション機構は、さまざまなアテンション構成においてどのように効率的なトレーニングを可能にするか?
主な発見
- BANGは、強力なセミ-NARベースラインに対してSQuAD 1.1およびXSumでそれぞれ14.01および5.24の絶対的向上を達成した。
- 強力なNARベースラインと比較して、SQuAD、XSum、PersonaChatの各タスクで、それぞれ10.73、6.39、5.90ポイントの全体スコア向上を達成した。
- NARファインチューニングにおいて、BANGはNARおよびARプリトレーニングモデル(例:MASS)を上回り、統合的プリトレーニング戦略の優位性を示した。
- BANGは、強力なARプリトレーニングモデル(例:BART)と同等の性能をAR生成で達成しており、統合的プリトレーニングによる性能低下がないことを示した。
- クロスストリーム可視nストリームアテンション機構により、[マスク]と真値トークン長の任意の組み合わせに対する効率的なトレーニングが可能となり、柔軟な生成パターンをサポートした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。