QUICK REVIEW

[論文レビュー] Consistency Models

Yang Song, Prafulla Dhariwal|arXiv (Cornell University)|Mar 2, 2023

Generative Adversarial Networks and Image Synthesis被引用数 24

ひとこと要約

ノイズを直接データへ写像する一貫性モデルを導入し、迅速なワンステップ生成を実現するとともに、任意のマルチステップ改良およびゼロショット編集を可能にし、CIFAR-10、ImageNet-64、LSUNで高い性能を示す。

ABSTRACT

Diffusion models have significantly advanced the fields of image, audio, and video generation, but they depend on an iterative sampling process that causes slow generation. To overcome this limitation, we propose consistency models, a new family of models that generate high quality samples by directly mapping noise to data. They support fast one-step generation by design, while still allowing multistep sampling to trade compute for sample quality. They also support zero-shot data editing, such as image inpainting, colorization, and super-resolution, without requiring explicit training on these tasks. Consistency models can be trained either by distilling pre-trained diffusion models, or as standalone generative models altogether. Through extensive experiments, we demonstrate that they outperform existing distillation techniques for diffusion models in one- and few-step sampling, achieving the new state-of-the-art FID of 3.55 on CIFAR-10 and 6.20 on ImageNet 64x64 for one-step generation. When trained in isolation, consistency models become a new family of generative models that can outperform existing one-step, non-adversarial generative models on standard benchmarks such as CIFAR-10, ImageNet 64x64 and LSUN 256x256.

研究の動機と目的

サンプル品質を損なうことなく、拡散よりも高速なサンプリングを動機づける。
PF ODE軌道を軌道の起点へ自己整合的に写像する。
ワンショットまたはマルチステップ生成によるゼロショットデータ編集を可能にする。
事前学習済み拡散モデルからの蒸留と孤立訓練の二つの訓練パラダイムを提供する。

提案手法

PF ODE軌道の任意の点をその軌道上の起点へ写す一貫性関数fを定義する。
t = εの境界条件でf(x, ε) = xとするようにfをパラメータ化し、スキップ接続風の定式化を用いる。
事前学習済み拡散モデルと実証PF ODE（Eq. 3およびEq. 6）のペアを用いた一貫性蒸留によってfを訓練する。
あるいは拡散モデルなしで孤立訓練を行い、スコアのデータ摂動推定量に依存する一貫性訓練損失を用いる。
ガウス分布サンプル x_T 上でfを評価して x_ε を得ることでワンステップサンプリングを許容し、追加の時刻点でfを再適用することで計算量と品質のトレードオフを図りつつマルチステップサンプリングを実現する。
インペインティング、カラーリゼーション、ノイズ除去、補間、ストローク指向編集など、ゼロショットデータ編集の能力を示す。

実験結果

リサーチクエスチョン

RQ1PF ODE軌道を軌道の起点へ自己整合的に写す写像が高品質なワンステップサンプル生成を可能にするか。
RQ2標準データセットにおいて、一貫性蒸留は漸進的蒸留や他の高速サンプリング法とどう比較されるか。
RQ3一貫性モデルはタスク特有の訓練なしにゼロショットデータ編集を実行できるか。
RQ4最適な性能のための効果的な訓練戦略（蒸留 vs 孤立訓練）とソルバ選択とは何か。
RQ5計算量とサンプル品質の観点から、単一ステップ生成とマルチステップ改良のトレードオフは何か。

主な発見

一貫性モデルは、CIFAR-10およびImageNet-64において蒸留ベースラインと比較して競争力のあるまたは優れた品質の単一ステップ生成を可能にする。
蒸留として使用される場合、いくつかのデータセットで少数ステップ生成において従来の拡散蒸留法を上回る（例：CIFAR-10のワンステップおよびツーステップ結果；ImageNet-64のワンステップおよびツーステップ結果）。
孤立訓練で一貫性モデルを訓練すると、標準的なベンチマークで1ステップの非対向ベースラインや多くのGANを上回る新しいクラスの生成モデルが得られる。
一貫性モデルは、インペインティング、カラーリゼーション、超解像、ノイズ除去、ストローク指向編集など、広範なゼロショットデータ編集タスクをサポートする。
提案された一貫性蒸留と一貫性訓練のフレームワークは、安定した収束と明確な理論的根拠を提供し、特に漸近的誤差境界と特定の極限下での同値性結果を含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。