QUICK REVIEW

[論文レビュー] Structured Denoising Diffusion Models in Discrete State-Spaces

Jacob Austin|arXiv (Cornell University)|Jul 7, 2021

Generative Adversarial Networks and Image Synthesis参考文献 51被引用数 82

ひとこと要約

本論文は Discrete Denoising Diffusion Probabilistic Models (D3PMs) が、離散データに拡散のような破損を適用し、構造化された遷移行列を用いることで訓練を改善し、新しい補助損失を導入して性能を向上させ、テキストと画像で強力な結果を達成することを紹介します。

ABSTRACT

Denoising diffusion probabilistic models (DDPMs) (Ho et al. 2020) have shown impressive results on image and waveform generation in continuous state spaces. Here, we introduce Discrete Denoising Diffusion Probabilistic Models (D3PMs), diffusion-like generative models for discrete data that generalize the multinomial diffusion model of Hoogeboom et al. 2021, by going beyond corruption processes with uniform transition probabilities. This includes corruption with transition matrices that mimic Gaussian kernels in continuous space, matrices based on nearest neighbors in embedding space, and matrices that introduce absorbing states. The third allows us to draw a connection between diffusion models and autoregressive and mask-based generative models. We show that the choice of transition matrix is an important design decision that leads to improved results in image and text domains. We also introduce a new loss function that combines the variational lower bound with an auxiliary cross entropy loss. For text, this model class achieves strong results on character-level text generation while scaling to large vocabularies on LM1B. On the image dataset CIFAR-10, our models approach the sample quality and exceed the log-likelihood of the continuous-space DDPM model.

研究の動機と目的

離散データ（テキストと画像）の生成モデルを拡散概念を用いて改善する動機づけ。
等方的な破損を超えた構造化遷移を用いた離散拡散の一般化。
各ステップで正確な x_0 の予測を促進する学習可能な逆過程と、性能を高める安定化補助損失の開発。
テキストの大規模語彙・長いシーケンス、および画像データへのスケーラビリティの実証。
非自己回帰ベースラインとの比較により、対数尤度とサンプル品質の競争力を示す。

提案手法

前方転送 q(x_t|x_{t-1}) を Q_t 行列で表現する、離散 K-カテゴリ変数の一般的な拡散フレームワークを定義する。
正規化された前方過程を用い、q(x_t|x_0) = Cat(x_t; p = x_0 Q̄_t) かつ Q̄_t = Q_1 Q_2 ... Q_t とする。
逆過程 p_θ(x_{t-1}|x_t) を x_0 条件付けロジットを用いて q(x_{t-1}|x_t,x_0) に整列させ、Q_t によって決定されるスパース性を維持する。
各ステップで正確な x_0 の予測を促す補助的なデノイズ目的 L_λ = L_vb + λ E_q,E_q[-log p̃_θ(x_0|x_t)] を導入する。
構造化された前方行列（均一、吸収/マスク、離散化ガウス、埋め込みベースの類似性）と対応するノイズスケジュールを探索する。
ordinal データのための切り捨てられた離散化ロジスティックなど、x_0 のパラメータ化と k-step 推論といったオプションを示す。

実験結果

リサーチクエスチョン

RQ1構造化された破損を伴う離散拡散モデルは、テキストや画像のタスクで従来の離散拡散法を上回るか。
RQ2均一、吸収/マスク、離散化ガウス、埋め込みベースの前方転送行列は、サンプル品質と対数尤度にどのような影響を与えるか。
RQ3補助損失 L_λ は、トレーニング安定性と生成品質をドメインを超えて改善するか。
RQ4D3PMs はテキストの大規模語彙と長いシーケンス、標準的な画像データセットへどの程度スケールするか。
RQ5D3PMs と自己回帰モデルやマスク付き言語モデルとの関係性にはどんなつながりがあるか。

主な発見

吸収（MASK）遷移を用いる D3PMs は、text8 で強力なテキスト生成結果を達成し、均一および NN バリアントと比較して上回った。
LM1B では、D3PM の吸収アプローチは大規模語彙へとスケールし、比較的少ない推論ステップで競争力のあるペープレックスを示す。
CIFAR-10 では D3PM Gauss（離散化ガウス）と L_vb 目的が、テストされたバリアントの中で最も良い IS、FID、NLL を与え、L_λ を切り捨てベースの逆モデリングと組み合わせると性能がさらに向上する。
D3PM 吸収モデルは L_λ 損失とともに強力なテキスト結果を示し、補助デノイズ目的の利益を立証する。
テキストでは、D3PM 吸収アプローチは 8k 語彙と 128 文字のシーケンスへスケールし、いくつかの設定で自己回帰モデルに近づき、より高速なサンプリングを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。