Skip to main content
QUICK REVIEW

[論文レビュー] Continuous diffusion for categorical data

Sander Dieleman, Laurent Sartran|arXiv (Cornell University)|Nov 28, 2022
Natural Language Processing Techniques被引用数 21
ひとこと要約

本研究は、離散的カテゴリー データの連続拡散モデリングを可能にするフレームワーク CDCD を紹介します。これは、トークンをユークリッド空間に埋め込み、スコア補間とクロスエントロピーでトレーニングし、効率的な学習のための時間歪みを適用することで実現され、言語モデル構築および翻訳タスクで実証されます。

ABSTRACT

Diffusion models have quickly become the go-to paradigm for generative modelling of perceptual signals (such as images and sound) through iterative refinement. Their success hinges on the fact that the underlying physical phenomena are continuous. For inherently discrete and categorical data such as language, various diffusion-inspired alternatives have been proposed. However, the continuous nature of diffusion models conveys many benefits, and in this work we endeavour to preserve it. We propose CDCD, a framework for modelling categorical data with diffusion models that are continuous both in time and input space. We demonstrate its efficacy on several language modelling tasks.

研究の動機と目的

  • 言語などの離散的なカテゴリデータに対して連続拡散を動機づけ、適用可能にする。
  • トークンをユークリッド空間に埋め込むことで時間的・入力空間の連続性を保持するフレームワークを提案する。
  • スコア補間とエンドツーエンドの埋め込み拡散を用いた訓練を開発する。
  • 効率的な学習のためにノイズレベルのサンプリングを適応させる時間歪みを導入する。

提案手法

  • 離散トークンを連続的なユークリッド空間に埋め込み、拡散モデルと埋め込みを共同訓練する。
  • スコア補間を用いてロジットからスコア関数を推定し、クロスエントロピーを介してエンドツーエンド訓練を可能にする(Equation 6–8)。
  • 埋め込みに対して L2 正規化を用いた拡散モデルを訓練し、埋め込み崩壊を防ぐとともに、x0 推定の再正規化を任意で行う。
  • 訓練損失から導出された推定CDFに従って拡散タイムステップを非一様にサンプリングすることで時間歪みを適用する(Equation 9)。
  • 言語モデリング課題のプロンプト完了やインフィリングのためのTransformerベースのアーキテクチャにCDCDを実装し、機械翻訳のためのエンコーダ–デコーダ構成にも適用する。

実験結果

リサーチクエスチョン

  • RQ1トークンをユークリッド空間に埋めることで、連続拡散を離散的カテゴリデータに効果的に適用できるか。
  • RQ2スコア補間とクロスエントロピーの組み合わせは、言語データ上で拡散モデルの安定したエンドツーエンド訓練を可能にするか。
  • RQ3時間歪みは CDCD のサンプル品質と訓練効率をどのように改善できるか。
  • RQ4言語タスクと翻訳において、拡散の利点を損なうことなく条件付き生成(マスキング/プレフィックス条件付け)を CDCD はサポートできるか。

主な発見

  • CDCD は、スコア補間とクロスエントロピー損失を用いてカテゴリデータの拡散モデルのエンドツーエンド訓練を可能にする。
  • 正規化を伴う共同学習埋め込みは崩壊を防ぎ、訓練可能なモデルを生み出す。
  • 時間歪みは有益なノイズレベルに訓練を集中させ、サンプリングの効率と品質を向上させる。
  • このフレームワークは、プロンプト完了およびインフィリングのためのマスク条件付き Transformer アーキテクチャをサポートする。
  • 適切な条件づけを備えたエンコーダ–デコーダ Transformer 構成を介して機械翻訳にも CDCD が適用可能。
  • CDCD の下で拡散ベースの言語モデルは自己回帰モデルとは異なり注意マスクなしで動作でき、アーキテクチャの柔軟性を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。