Skip to main content
QUICK REVIEW

[論文レビュー] AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

Tong Wu, Zhihao Fan|arXiv (Cornell University)|May 16, 2023
Topic Modeling被引用数 18
ひとこと要約

AR-Diffusion は、トークン位置依存のデノイズステップを備えた自己回帰型拡散プロセスを導入し、要約、翻訳、コモンセンス生成タスク全体で、デコードを高速化し品質を向上させます。

ABSTRACT

Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained with a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks, including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated its superiority over existing diffusion language models and that it can be $100\times\sim600\times$ faster when achieving comparable results. Our code is available at https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion.

研究の動機と目的

  • 拡散モデルが自然言語の固有の逐次依存性を尊重するよう動機づける。
  • 左から右への依存関係を捉えるために、トークン生成速度が位置によって変化する自己回帰型拡散機構を開発する。
  • 生成品質を高めるため、動的な移動速度を伴う文レベルとトークンレベルの多段階拡散戦略を導入する。
  • 推論を加速するためにスキップ機構を用いてデコード手順を削減し、性能を維持または向上させる。

提案手法

  • 文レベルのタイムステップをランダムに割り当て、トークン位置に基づいてトークンレベルのタイムステップ f(n,t) を計算する多段階拡散戦略を採用する。
  • 左トークンのデノイズを左から右へ速くするため、トークンレベルのタイムステップの差としてトークン移動速度 v(n,t_i,t_{i+1}) を定義する。
  • エンコーダ-デコーダ g_θ を介して条件付き拡散尤度とデノイズ整合性項を組み合わせた目的関数で訓練する。
  • 推論手順を大幅に削減するため、文レベルタイムステップの減少 subsequence を選択するスキップ推論機構を使用する。
  • トークンレベルのタイムステップ割り当てを導くアンカーポイント (n_e, t_e) と、f(n,t) を計算するアファイン(点-傾き)関数を提供する。
  • 逆拡散をトークンごとに分解し、各位置が自分の履歴を条件付けしつつ前方拡散構造を共有する。

実験結果

リサーチクエスチョン

  • RQ1拡散デノイズ時に逐次依存性を再導入することで、自己回帰型拡散プロセスはテキスト生成品質を改善できるか?
  • RQ2トークンレベルの拡散タイムステップを介して左から右への移動速度を強制することは、均一な拡散タイムステップと比較して整合性や事実性を改善するか?
  • RQ3スキップ機構は性能を犠牲にすることなく拡散ベースのデコードを大幅に加速できるか?
  • RQ4既存の拡散モデルおよびAR/NARベースラインと比較して、要約、翻訳、コモンセンス生成タスクにおけるAR-Diffusionの性能はどうか?

主な発見

  • AR-Diffusion はタスクを問わず、品質の点で既存の拡散言語モデルおよびARベースラインを一貫して上回る。
  • モデルはデコードを著しく高速化し、特定の設定で最大で100x〜600xの速度向上を主張しつつ、同等の結果を維持する。
  • テキスト要約、機械翻訳、コモンセンス生成のすべてで、AR-Diffusion は GENIE および diffusion-LM のベースラインより優れた結果を示す。
  • 推論のスキップとトークンレベル拡散を組み合わせることで効率が向上し、非常に少ない推論手順でも高い性能を維持する。
  • 生成サンプルの多様性は競争力を維持し、AR-Diffusion は自己回帰モデルより多様性が高く、特定の設定では GENIE に匹敵する多様性を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。