[論文レビュー] SinFusion: Training Diffusion Models on a Single Image or Video
SinFusion は単一の画像またはビデオ上で拡散モデルを訓練し、多様なサンプルを生成し、非常に少ないフレームから実入力のビデオ外挿、アップサンプリング、編集を可能にします。
Diffusion models exhibited tremendous progress in image and video generation, exceeding GANs in quality and diversity. However, they are usually trained on very large datasets and are not naturally adapted to manipulate a given input image or video. In this paper we show how this can be resolved by training a diffusion model on a single input image or video. Our image/video-specific diffusion model (SinFusion) learns the appearance and dynamics of the single image or video, while utilizing the conditioning capabilities of diffusion models. It can solve a wide array of image/video-specific manipulation tasks. In particular, our model can learn from few frames the motion and dynamics of a single input video. It can then generate diverse new video samples of the same dynamic scene, extrapolate short videos into long ones (both forward and backward in time) and perform video upsampling. Most of these tasks are not realizable by current video-specific generation methods.
研究の動機と目的
- 大規模なデータセットではなく、単一の入力画像またはビデオで拡散モデルの能力を有効化することを動機づける。
- 単一のビデオの外観とダイナミクスを学習し、操作・編集タスクを可能にする。
- 単一の入力から多様な生成、時刻の外挿(時間軸の正・負方向)、および時系列のアップサンプリングを達成する。
- 単一画像/動画データに適した DDPM のアーキテクチャと訓練の変更を提案する。
提案手法
- DDPM バックボーンを完全畳み込み対応に変更し、グローバルアテンションとダウン/アップサンプリング層を削除して受容野の成長を抑える。
- 単一画像からの大きなクロップを用いて全体構造を保持しつつ全体画像への過剰適合を避ける。
- ResNet ブロックを ConvNext ブロックに置換し、限られた受容野でアテンション様の能力を模倣する。
- 単一画像 DDPM の訓練時にノイズの代わりにクリーンな画像 x0 を予測し、品質と速度を向上させる。
- ビデオの場合、3つの単一画像 DDPM を組み合わせる:Predictor(前のフレームを条件付け)、Projector(アーティファクトを補正)、Interpolator(時系列アップサンプリング)。
- フレーム差分による条件付けとフレーム間隔 k によるカリキュラムを用いて予測の品質を向上させる。
- 入力ビデオで3つのモデルを別々に訓練し、推論時に自己回帰的に結合して多様で長いビデオを生成する。
実験結果
リサーチクエスチョン
- RQ1拡散モデルを単一の画像または単一のビデオで訓練して、類似した外観とダイナミクスを持つ新しいサンプルを生成できるか?
- RQ2最小限の入力データ(例: いくつかのフレーム)で訓練された拡散モデルから、どのような編集・ビデオ操作機能が現れるか?
- RQ3単一動画拡散フレームワークは、多様な生成、時間方向の外挿、時系列アップサンプリングにどれだけ一般化できるか?
- RQ4データが非常に限られている(単一画像/動画)の場合に、効果的な拡散モデリングを可能にするアーキテクチャ変更は何か?
主な発見
- 単一画像で訓練された拡散モデルは、グローバル構造と外観を保持した多様なサンプルを生成できる。
- 3モデルの単一ビデオ DDPM フレームワークは、単一入力ビデオから多様なビデオ生成、前方/後方の外挿、および時系列アップサンプリングを可能にする。
- このフレームワークは、少数のフレーム(しばしば 2–3 十分の一十数フレーム)から未知のフレームへの運動一般化を示す。
- SinFusion は実入力ビデオを編集し、観測フレームを超えるモーションを外挿し、ビデオフレームをアップサンプリングでき、ダイバーシティと品質のトレードオフで既存の単一ビデオ手法を上回る。
- 単一ビデオからの多様な生成を評価するための新規 NN ベースの多様性指標(NNFDIV)と NNFDIST および SVFID を提案する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。