Skip to main content
QUICK REVIEW

[論文レビュー] Step-unrolled Denoising Autoencoders for Text Generation

Nikolay Savinov, Jun‐Young Chung|arXiv (Cornell University)|Dec 13, 2021
Topic Modeling被引用数 30
ひとこと要約

SUNDAE は、マルコフ連鎖上でデノイジングプロセスを展開する非自己回帰のテキスト生成モデルであり、WMT’14 EN→DE における非 AR の最先端結果を達成し、無条件生成でも堅実な結果を示し、自己回帰デコードに比べて顕著な高速化を実現する。

ABSTRACT

In this paper we propose a new generative model of text, Step-unrolled Denoising Autoencoder (SUNDAE), that does not rely on autoregressive models. Similarly to denoising diffusion techniques, SUNDAE is repeatedly applied on a sequence of tokens, starting from random inputs and improving them each time until convergence. We present a simple new improvement operator that converges in fewer iterations than diffusion methods, while qualitatively producing better samples on natural language datasets. SUNDAE achieves state-of-the-art results (among non-autoregressive methods) on the WMT'14 English-to-German translation task and good qualitative results on unconditional language modeling on the Colossal Cleaned Common Crawl dataset and a dataset of Python code from GitHub. The non-autoregressive nature of SUNDAE opens up possibilities beyond left-to-right prompted generation, by filling in arbitrary blank patterns in a template.

研究の動機と目的

  • より高速なサンプリングと柔軟な条件付けを実現するための非自己回帰テキスト生成の動機付け。
  • 訓練中にデノイジングプロセスを展開して生成時の入力に備える SUNDAE を提案する。
  • ARモデルからの蒸留なしで WMT’14 EN→DE における非自己回帰の最先端結果を実証する。
  • 無条件言語モデリングおよびコード/テキストのインペインティングタスクに関する定性的および定量的結果を示す。
  • 訓練時の展開とターゲット長予測の重要性を示すアブレーションを提供する。

提案手法

  • SUNDAE を、トークンごとに分解された遷移を持つ時間均一なマルコフ連鎖として定義する。
  • 展開されたデノイジングを用いた訓練: L^(1) および L^(2) 損失(展開デノイジング)を最適化して p_t を近似し、破損入力からの学習を促進する。
  • 複数のステップでのデノイジングを模倣するため、語彙からのランダムなトークンでランダムな割合のトークンを置換する破損プロセスを使用する。
  • サンプリング時には、ランダム入力からチェーンを展開して生成し、収束を速める戦略を用いる(低温度サンプリング、argmax-unrolled デコード、より少ないトークンの更新)。
  • 機械翻訳タスクでのデコードを導くために、ターゲット長予測を任意に含める。
  • SUNDAE を AR ベースラインや他の非AR手法と比較し、展開されたデノイジングと長さ予測の必須性を示すアブレーションを行う。

実験結果

リサーチクエスチョン

  • RQ1展開デノイジングで訓練された非自己回帰モデルは、自己回帰教師モデルからの蒸留なしで競争力のある翻訳品質を達成できるか?
  • RQ2条件付きおよび無条件のテキスト生成タスクにおいて、展開デノイジングはサンプル品質と一貫性にどう影響するか?
  • RQ3訓練時の展開とターゲット長予測が非AR MT性能に与える影響は何か?
  • RQ4サンプリング戦略(温度、argmax-unrolled、トークン更新スケジュール)は生成の速度と品質にどう影響するか?

主な発見

  • SUNDAE は AR 蒸留なしで WMT’14 English→German 翻訳において非自己回帰手法の中で最先端の結果を達成した。
  • EN→DE において、SUNDAE は報告された実験で BLEU スコア約 26.25(raw, non-AR)および 30.80(DE→EN, raw, non-AR)に達する。
  • SUNDAE は EN→FR で競争力のある結果を示し、T=10(非AR)で 37.53 BLEU、AR ベースラインと比較して蒸留なしでの高い性能を示している。
  • 訓練時の展開は実用的な性能にとって極めて重要で、L^(1:2) は L^(1) のみより大きな改善を提供する;追加の展開損失は収益が小さい。
  • 展開デノイジングは効率的な非AR生成を可能にし、ARデコードよりも大幅なスピードアップを実現する(例:小さなステップ数で最大 4.7x、ステップ数が増えると減少)。
  • SUNDAE は C4 および Python コードデータセットで堅牢な無条件生成とインペインティング能力を示し、長距離テキスト生成の一貫性と柔軟なテンプレート充填を定性的に示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。