Skip to main content
QUICK REVIEW

[論文レビュー] KNN-Diffusion: Image Generation via Large-Scale Retrieval

Shelly Sheynin, Oron Ashual|arXiv (Cornell University)|Apr 6, 2022
Generative Adversarial Networks and Image Synthesis被引用数 46
ひとこと要約

KNN-Diffusion は、共同CLIP空間で取得したk近傍の画像埋め込みに条件付けすることでテキストデータなしでテキストから画像への拡散モデルを訓練し、テキスト駆動生成、分布外のサンプリング、マスク不要のローカル操作を可能にする。

ABSTRACT

Recent text-to-image models have achieved impressive results. However, since they require large-scale datasets of text-image pairs, it is impractical to train them on new domains where data is scarce or not labeled. In this work, we propose using large-scale retrieval methods, in particular, efficient k-Nearest-Neighbors (kNN), which offers novel capabilities: (1) training a substantially small and efficient text-to-image diffusion model without any text, (2) generating out-of-distribution images by simply swapping the retrieval database at inference time, and (3) performing text-driven local semantic manipulations while preserving object identity. To demonstrate the robustness of our method, we apply our kNN approach on two state-of-the-art diffusion backbones, and show results on several different datasets. As evaluated by human studies and automatic metrics, our method achieves state-of-the-art results compared to existing approaches that train text-to-image generation models using images only (without paired text data)

研究の動機と目的

  • 大規模な画像埋め込みを用いて、テキストデータを一切含まないテキストから画像への拡散モデルを訓練できるようにする。
  • conditioning分布を拡張し、訓練時と推論時のギャップを埋めるためにkNN検索を活用する。
  • 推論時に検索データベースを入れ替えることで分布外生成をデモンストレーションする。
  • 編集マスクを必要とせず、テキスト駆動のローカルな意味的操作を示す。
  • 複数の拡散バックボーンとデータセットにわたってアプローチを検証する。

提案手法

  • テキストと画像の埋め込みの共通のマルチモーダルエンコーダとしてCLIPを用いる。
  • f_imgでインデックス化された画像埋め込み上の非学習型kNN検索インデックスを維持し、最近傍k個を供給する。
  • 拡散モデルを、入力埋め込み(画像で訓練)またはテキスト埋め込み(推論時)と、インデックスから取得されたkNN埋め込みの両方に条件付けする。
  • このアプローチの堅牢性を示すために、離散拡散バックボーンと連続拡散バックボーンの双方を適用する。
  • 局所領域をそれぞれのkNN対応物で置換した画像から元画像を再構成することを学ぶ訓練レジームを採用する。
  • ターゲット変更のCLIP埋め込みを条件付けすることで、ユーザー提供のマスクなしに局所的でテキスト指示に導かれた編集を拡張する。

実験結果

リサーチクエスチョン

  • RQ1共有CLIP空間における大規模な画像検索を活用して、テキストデータを一切使わずにテキストから画像への拡散モデルを訓練できるのか?
  • RQ2訓練時および推論時にkNN画像埋め込みで条件付けることは、テキストと画像の分布間の整合性を改善するのか?
  • RQ3推論時に検索データベースを入れ替えることで、検索ベースの条件付けが分布外の画像生成を可能にするのか?
  • RQ4マスクなしで、テキストプロンプトに導かれた局所的な意味的画像操作が可能で、オブジェクトの同一性を保持するのか?
  • RQ5離散および連続の拡散バックボーンは、画像生成と操作タスクにおいてkNN条件付けの恩恵を受けるのか?

主な発見

  • kNN-Diffusionフレームワークは、画像データのみで訓練した場合、MS-COCO、LN-COCO、CUBで最先端のゼロショット結果を達成する。
  • kNN条件付けで訓練されたモデルは、kNNなしで訓練されたベースラインを、離散・連続の拡散バックボーンの両方で上回る。
  • このアプローチは、推論時に検索データベースを入れ替えることで再訓練なしに分布外の画像生成を実現する。
  • ユーザー提供のマスクを必要とせず、テキストプロンプトに導かれた局所的な意味的画像操作をサポートし、オブジェクトの同一性を保持する。
  • 人間評価とFID指標は、ベースラインおよびいくつかのテキスト訓練モデルと比較して、より高い画像品質とテキスト整合性を示し、比較的小さなパラメータ数と高速な推論を実現している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。