QUICK REVIEW

[論文レビュー] SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers

Hongyi Yuan, Zheng Yuan|arXiv (Cornell University)|Dec 20, 2022

Music and Audio Processing被引用数 20

ひとこと要約

SeqDiffuSeqはエンコーダ-デコーダ Transformerを用いたシーケンスツーシーケンスのテキスト生成に拡張した拡散モデルであり、自己条件付けとトークンレベルの適応ノイズスケジュールを強化し、複数のタスクでDiffuSeqより競争力の高い品質と高速推論を実現します。

ABSTRACT

Diffusion model, a new generative modelling paradigm, has achieved great success in image, audio, and video generation. However, considering the discrete categorical nature of text, it is not trivial to extend continuous diffusion models to natural language, and text diffusion models are less studied. Sequence-to-sequence text generation is one of the essential natural language processing topics. In this work, we apply diffusion models to approach sequence-to-sequence text generation, and explore whether the superiority generation performance of diffusion model can transfer to natural language domain. We propose SeqDiffuSeq, a text diffusion model for sequence-to-sequence generation. SeqDiffuSeq uses an encoder-decoder Transformers architecture to model denoising function. In order to improve generation quality, SeqDiffuSeq combines the self-conditioning technique and a newly proposed adaptive noise schedule technique. The adaptive noise schedule has the difficulty of denoising evenly distributed across time steps, and considers exclusive noise schedules for tokens at different positional order. Experiment results illustrate the good performance on sequence-to-sequence generation in terms of text quality and inference time.

研究の動機と目的

エンコーダ-デコーダ Transformer アーキテクチャを用いて、連続拡散をシーケンスツーシーケンスのテキスト生成に拡張する。
自己条件付けとトークンレベルの適応ノイズスケジュールを通じて生成品質を向上させる。
複数のタスクで、AR/NARベースラインおよびDiffuSeqに対して競争力のある性能を示す。
推論速度の向上を示し、提案手法の影響を分析する。

提案手法

出力シーケンスのトークンの前向き拡散を、入力と独立した連続埋め込みにモデル化し、DiffusionLMのパラメータを用いたガウス拡散ステップを使用する。
ノイズ除去関数としてエンコーダ-デコーダ Transformerを用い、エンコーダが入力シーケンスを処理し、デコーダが時間ステップ条件付けでノイズのある出力シーケンスをモデル化する。
以前のデノイズされた出力を現在のデノイズステップに入力して、以前の予測から情報を再利用する形で自己条件付けを組み込む。
トークンごとのデノイズの難易度（訓練損失で測定）を時間ステップのノイズレベルへ線形補間で写像する、適応的なトークンレベルノイズスケジュールを導入する。
変分下界目的で訓練し、デノイズ予測が元の埋め込みを回復するよう促す簡易な損失を導出しつつ、正確なデコードを促進する。
推論時にMBRベースのデコードを探索して生成品質を高め、多様性とのトレードオフを分析する。

実験結果

リサーチクエスチョン

RQ1エンコーダ-デコーダ構造を備えた拡散ベースのシーケンスツーシーケンスモデルは、テキスト生成タスクにおいてARおよびNARベースラインに対して競争力のある品質を達成できるか？
RQ2拡散ベースのテキスト生成において、自己条件付けは prior predictions の活用を改善するか？
RQ3トークンレベルの適応ノイズスケジュールは、固定スケジュールよりもデノイズの難易度の整合性と生成品質を向上させるか？
RQ4複数のタスクで、SeqDiffuSeqはDiffuSeqや他の拡散ベースまたは非拡散のベースラインと比べて速度と多様性の点でどうか？

主な発見

SeqDiffuSeqは5つのシーケンスツーシーケンスタスクを通じて、ARとNARベースラインと比較して競争力の生成品質と多様性を示す。
自己条件付けと適応ノイズスケジュールの両方が性能を向上させ、それぞれが相補的である。
SeqDiffuSeqはエンコーダの再利用とシーケンスレベルのデノイズによりDiffuSeqよりはるかに高速な推論を実現し、実行時間を大幅に短縮する。
MBR推論を用いると、いくつかのタスクで品質をさらに向上させることができるが、多様性のトレードオフがある。
翻訳タスク全般で、SeqDiffuSeqは自動回帰型Transformerには及ばないが、いくつかの非自動回帰法を上回り、DiffuSeqに対しても有利な性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。