QUICK REVIEW

[論文レビュー] Few-Shot Diffusion Models

Giorgio Giannone, Didrik Nielsen|arXiv (Cornell University)|May 30, 2022

Advanced Neuroimaging Techniques and Applications被引用数 20

ひとこと要約

本論文は Few-Shot Diffusion Models (FSDM) を提案し、一連の few 画像で処理された set encoder (ViT) を用いて DDPM をセット条件付けし、未知クラスへの迅速な few-shot 世代と転移を可能にします。FSDM は unconditional および conditional ベースラインよりも学習速度が速く、サンプル品質が高く、転移が優れています。

ABSTRACT

Denoising diffusion probabilistic models (DDPM) are powerful hierarchical latent variable models with remarkable sample generation quality and training stability. These properties can be attributed to parameter sharing in the generative hierarchy, as well as a parameter-free diffusion-based inference procedure. In this paper, we present Few-Shot Diffusion Models (FSDM), a framework for few-shot generation leveraging conditional DDPMs. FSDMs are trained to adapt the generative process conditioned on a small set of images from a given class by aggregating image patch information using a set-based Vision Transformer (ViT). At test time, the model is able to generate samples from previously unseen classes conditioned on as few as 5 samples from that class. We empirically show that FSDM can perform few-shot generation and transfer to new datasets. We benchmark variants of our method on complex vision datasets for few-shot learning and compare to unconditional and conditional DDPM baselines. Additionally, we show how conditioning the model on patch-based input set information improves training convergence.

研究の動機と目的

realism の高い、複雑な視覚データに対する few-shot 世代を動機づけ、可能にする。
Vision Transformer を介してセット情報を集約する conditioning メカニズムを提案する。
コンテキストネットと条件付き拡散モデルの二部構成モデルを開発する。
ベースラインよりも訓練効率、サンプル品質、未知クラスへの転移を改善する。

提案手法

条件付き拡散フレームワーク p_theta(x0:T | X) を、セット X に対して c = h_phi(X) というコンテキストで条件付けする。
ViT ベースのコンテキストエンコーダ (sViT) を用いて画像パッチのセットを処理し、セットごとのコンテキストトークンを生成する。
FiLM と Learnable Attentive Conditioning (LAC) を用いて、コンテキスト c を DDPM の特徴と融合させる conditioning メカニズムを探る。
ノイズ ε の予測に基づく条件付き per-layer 損失 L^c_{t-1}（条件付き）と、固定の unconditional 損失 L^c_T を組み合わせて訓練する。
入力依存型（特定の入力に conditioning する）と入力非依存型の二つのコンテキスト定式化を提供する； out-of-distribution conditioning の向上のため入力依存型を選択する。
任意で Variational FSDM (VFSDM) を議論することがあるが、潜在的セット変数 c を導入するが、実務上は性能が低かった。

実験結果

リサーチクエスチョン

RQ1セットベースの conditioning メカニズムは、非常に少ないデータで unseen クラスに対して DDPM を few-shot 世代できるのか？
RQ2ViT ベースのセットエンコーダと Learnable Attentive Conditioning は、FiLM ベースのアプローチより conditioning 表現力を向上させるのか？
RQ3FSDM とベースラインの、訓練分布内 / 外分布での性能と、異なるデータセットへの転移はどう比較されるのか？
RQ4新規で複雑なオブジェクトの few-shot 世代の際、訓練時 conditioning と sampling-time conditioning の影響はどの程度か？

主な発見

FSDM は unseen なクラスとデータセットに対する few-shot 世代で unconditional および conditional DDPM ベースラインを上回る。
クロスアテンション conditioning を用いた token ベースのコンテキスト表現は、デノイズの質とサンプルの多様性を向上させる。
入力依存型コンテキストで訓練すると、out-of-distribution conditioning と転移性能が向上する。
FSDM は CIFAR100 および miniImageNet のシナリオ全体で、ベースラインと比較して収束が速く、サンプル忠実度指標が改善される。
FSDM は unseen データセットへの transferable な few-shot 世代を実証し、ILVR のような sampling-time conditioning ベースラインよりも多くの設定で優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。