[論文レビュー] DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models
DiffuSeq は Seq2Seq テキスト生成のための classifier-free 拡散モデルを導入し、強い品質と顕著な多様性を持つ並列(非自己回帰)デコーディングを可能にし、拡散を自己回帰および反復型NARフレームワークと結びつける。
Recently, diffusion models have emerged as a new paradigm for generative models. Despite the success in domains using continuous signals such as vision and audio, adapting diffusion models to natural language is under-explored due to the discrete nature of texts, especially for conditional generation. We tackle this challenge by proposing DiffuSeq: a diffusion model designed for sequence-to-sequence (Seq2Seq) text generation tasks. Upon extensive evaluation over a wide range of Seq2Seq tasks, we find DiffuSeq achieving comparable or even better performance than six established baselines, including a state-of-the-art model that is based on pre-trained language models. Apart from quality, an intriguing property of DiffuSeq is its high diversity during generation, which is desired in many Seq2Seq tasks. We further include a theoretical analysis revealing the connection between DiffuSeq and autoregressive/non-autoregressive models. Bringing together theoretical analysis and empirical evidence, we demonstrate the great potential of diffusion models in complex conditional language generation tasks. Code is available at \url{https://github.com/Shark-NLP/DiffuSeq}
研究の動機と目的
- 条件付きの離散テキスト生成のための拡散モデルを Seq2Seq タスクで動機づける。
- 外部分類器なしでソース系列を条件とする classifier-free 拡散モデルを開発する。
- 多様性を向上させつつ品質を維持するために非自己回帰・並列デコードを可能にする。
- DiffuSeq と AR/iter-NAR/Fully-NAR モデルとの理論的関係を確立する。
- 複数の Seq2Seq タスクで実証的効果を示す。)
提案手法
- 離散テキストのペア(ソースとターゲット)を共有された連続空間に埋め込み、ターゲット部分のみを摂動する部分的ノイズ付与前処理を適用する。
- 補助分類器を使わず( classifier-free ) pθ(z t−1|z t) を学習するために Transformer ベースのネットワークで逆ノイズ除去をモデル化する。
- ソースとターゲット表現の共同訓練のために統一された Emb(wx ⊕ wy) 埋め込みを使用する。
- y0 再構成と埋め込みの整合性を強調する簡略化された目的関数で変分下界 L_VLB を導出・最小化する。
- 訓練を安定化させるために拡散ステップ上で重要度サンプリングを適用し、最終品質を向上させるために MBR デコードを採用する。
- 自己回帰、反復型-NAR、および完全-NAR モデルへの接続を確立し、DiffuSeq が反復型-NAR を拡張することを主張する。
実験結果
リサーチクエスチョン
- RQ1分類器なしで条件付き Seq2Seq テキスト生成に拡散モデルを効果的に適用できるか?
- RQ2部分的ノイズ付与前処理は条件生成とソース wx とターゲット wy の依存関係モデリングにどのような影響を与えるか?
- RQ3DiffuSeq と AR/iter-NAR/Fully-NAR モデルの関係は何か、DiffuSeq は品質と多様性において利点を提供するか?
- RQ4wx と wy の共有埋め込みの共同訓練は性能にとって重要であり、分離訓練は結果を悪化させるか?
- RQ5拡散ベースの Seq2Seq モデルは標準タスク全体で競争力のある品質と高い多様性を達成するか?
主な発見
| タスク | 手法 | BLEU ↑ | R-L ↑ | スコア ↑ | dist-1 ↑ | selfB ↓ / div-4 ↑ | Len |
|---|---|---|---|---|---|---|---|
| Open Domain Dialogue | GRU-attention ⋄ | 0.0068 | 0.1054 | 0.4128 | 0.8998 | 0.8008/0.1824 | 4.46 |
| Open Domain Dialogue | Transformer-base ⋄ | 0.0189 | 0.1039 | 0.4781 | 0.7493 | 0.3698/0.6472 | 19.5 |
| Open Domain Dialogue | GPT2-base FT ∙ | 0.0108 | 0.1508 | 0.5279 | 0.9194 | 0.0182/0.9919 | 16.8 |
| Open Domain Dialogue | GPT2-large FT ∙ | 0.0125 | 0.1002 | 0.5293 | 0.9244 | 0.0213/0.9938 | 16.8 |
| Open Domain Dialogue | GPVAE-T5 ∙ | 0.0110 | 0.1009 | 0.4317 | 0.5625 | 0.3560/0.5551 | 20.1 |
| Open Domain Dialogue | NAR-LevT ‡ | 0.0158 | 0.0550 | 0.4760 | 0.9726 | 0.7103/0.1416 | 4.11 |
| Open Domain Dialogue | DiffuSeq (Ours) ‡ | 0.0139 | 0.1056 | 0.5131 | 0.9467 | 0.0144 / 0.9971 | 13.6 |
| Question Generation | GRU-attention ⋄ | 0.0651 | 0.2617 | 0.5222 | 0.7930 | 0.9999/0.3178 | 10.1 |
| Question Generation | Transformer-base ⋄ | 0.1663 | 0.3441 | 0.6307 | 0.9309 | 0.3265/0.7720 | 10.3 |
| Question Generation | GPT2-base FT ∙ | 0.0741 | 0.2714 | 0.6052 | 0.9602 | 0.1403 / 0.9216 | 10.0 |
| Question Generation | GPT2-large FT ∙ | 0.1110 | 0.3215 | 0.6346 | 0.9670 | 0.2910/0.8062 | 9.96 |
| Question Generation | GPVAE-T5 ∙ | 0.1251 | 0.3390 | 0.6308 | 0.9381 | 0.3567/0.7282 | 11.4 |
| Question Generation | NAR-LevT ‡ | 0.0930 | 0.2893 | 0.5491 | 0.8914 | 0.9830/0.4776 | 6.93 |
| Question Generation | DiffuSeq (Ours) ‡ | 0.1731 | 0.3665 | 0.6123 | 0.9056 | 0.2789 / 0.8103 | 11.5 |
| Text Simplification | GRU-attention ⋄ | 0.3256 | 0.5602 | 0.7871 | 0.8883 | 0.9998/0.3313 | 18.9 |
| Text Simplification | Transformer-base ⋄ | 0.2693 | 0.4907 | 0.7381 | 0.8886 | 0.6924/0.5095 | 18.5 |
| Text Simplification | GPT2-base FT ∙ | 0.3083 | 0.5461 | 0.8021 | 0.9439 | 0.5444/0.6047 | 16.1 |
| Text Simplification | GPT2-large FT ∙ | 0.2693 | 0.5111 | 0.7882 | 0.9464 | 0.6042/0.5876 | 15.4 |
| Text Simplification | GPVAE-T5 ∙ | 0.3392 | 0.5828 | 0.8166 | 0.9308 | 0.8147/0.4355 | 18.5 |
| Text Simplification | NAR-LevT ‡ | 0.2052 | 0.4402 | 0.7254 | 0.9715 | 0.9907/0.3271 | 8.31 |
| Text Simplification | DiffuSeq (Ours) ‡ | 0.3622 | 0.5849 | 0.8126 | 0.9264 | 0.4642 / 0.6604 | 17.7 |
| Paraphrase | GRU-attention ⋄ | 0.1894 | 0.5129 | 0.7763 | 0.9423 | 0.9958/0.3287 | 8.30 |
| Paraphrase | Transformer-base ⋄ | 0.2722 | 0.5748 | 0.8381 | 0.9748 | 0.4483/0.7345 | 11.2 |
| Paraphrase | GPT2-base FT ∙ | 0.1980 | 0.5212 | 0.8246 | 0.9798 | 0.5480/0.6245 | 9.67 |
| Paraphrase | GPT2-large FT ∙ | 0.2059 | 0.5415 | 0.8363 | 0.9819 | 0.7325/0.5020 | 9.53 |
| Paraphrase | GPVAE-T5 ∙ | 0.2409 | 0.5886 | 0.8466 | 0.9688 | 0.5604/0.6169 | 9.60 |
| Paraphrase | NAR-LevT ‡ | 0.2268 | 0.5795 | 0.8344 | 0.9790 | 0.9995/0.3329 | 8.85 |
| Paraphrase | DiffuSeq (Ours) ‡ | 0.2413 | 0.5880 | 0.8365 | 0.9807 | 0.2732 / 0.8641 | 11.2 |
- DiffuSeq は、4 つの Seq2Seq タスクで、最先端の PLM ベースモデルを含む六つの強力なベースラインと同等または優れた品質を達成。
- DiffuSeq は、一貫してより高い多様性(自己 BLEU の低下と div-4 の向上)を示しつつ、BLEU、ROUGE、BERTScore は競合的。
- モデルは文レベルの多様性が高く、分散を活用した場合(例:MBR のより大きな候補集合で)自己回帰ベースのベースラインを上回ることがある。
- wx と wy の共有埋め込みの共同訓練は性能にとって重要であり、分離訓練戦略は結果を劣化させる。
- DiffuSeq は自己回帰、反復型-NAR、および拡散アプローチの理論的・実証的ブリッジを提供し、条件付き言語生成の拡張として拡散を有効な選択肢として確立する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。