[論文レビュー] V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration
V-Bridge は前提学習済みの動画生成 priors を repurpose し、復元を進行的な生成 refinements としてモデリングすることで、約 1,000 の学習サンプルのみで競争力のある結果を達成する。
Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.
研究の動機と目的
- 大規模動画モデルの転移 priors を活用するため、画像復元を進行的・動画風生成プロセスとして再定義する。
- moderate な動画前学習解像度から高解像度復元へ橋渡しするデータ効率の高いトレーニングカリキュラムを開発する。
- 限られたタスク固有データで、単一の事前学習済み動画モデルが複数の復元タスクを扱えることを示す。
- 動画 priors から生じる解像度バイアスを緩和し、細粒度の忠実度を改善する drift correction を導入する。
提案手法
- 低品質と高品質画像の対になったペアから pseudo- Temporal sequence を構築し、進行的復元軌道を模擬する。
- 空間解像度を徐々に高める進行的カリキュラムで学習し、粗から細への復元ダイナミクスを学習する。
- 復元を条件付き生成過程 f_theta(I_0, t) として定式化し、中間フレーム I_t を予測する。
- 低解像度および中解像度 priors を高解像度のグラウンド truth に合わせる drift correction モジュールを組み込む。
- 最終フレームを洗練させ、テクスチャと色忠実度を改善する軽量な補助モデルを使用する。
実験結果
リサーチクエスチョン
- RQ1事前学習済みの動画生成 priors を、タスク固有データを最小限に抑えつつ、多様な画像復元タスクに活性化できるか。
- RQ2粗から細へのトレーニングカリキュラムは、動画 priors を高解像度復元へ効果的に転移できるか。
- RQ3drift correction モジュールは、復元における高周波ディテール回復と知覚品質にどのような影響を与えるか。
- RQ4単一の動画モデルは、見たことのない劣化や分布外タスクへどの程度 generalize できるか。
主な発見
- V-Bridge は 1,000 件程度のマルチタスク学習サンプルで競争力のある復元品質を達成し、ベースラインと比較してデータ量を 0.1%–7% に抑える。
- FoundIR で 15×〜1,000× 多いデータで学習したベースラインより 1.6dB の PSNR 増、SSIM の改善を含む。
- drift correction により約 1.4dB の PSNR と 0.024 の SSIM 増、細かな質感と色忠実度が向上。
- 解像度を段階的に上げる進行的カリキュラム訓練は復元性能と訓練安定性を向上。
- 本アプローチは、多様なベンチマークと劣化に対するアウト・オブ・Distribution な一般化性能が高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。