QUICK REVIEW

[論文レビュー] Controlling Vision-Language Models for Multi-Task Image Restoration

Ziwei Luo, Fredrik Gustafsson|arXiv (Cornell University)|Oct 2, 2023

Domain Adaptation and Few-Shot Learning被引用数 21

ひとこと要約

DA-CLIP は、分解-aware コントローラを導入し、固定された CLIP エンコーダを適応させて高品質なコンテンツ埋め込みを出力しつつ、分解タイプを予測する。これにより、既存の復元フレームワーク内で、分解特異的な復元と統一的な復元の両方を可能にする。

ABSTRACT

Vision-language models such as CLIP have shown great impact on diverse downstream tasks for zero-shot or label-free predictions. However, when it comes to low-level vision such as image restoration their performance deteriorates dramatically due to corrupted inputs. In this paper, we present a degradation-aware vision-language model (DA-CLIP) to better transfer pretrained vision-language models to low-level vision tasks as a multi-task framework for image restoration. More specifically, DA-CLIP trains an additional controller that adapts the fixed CLIP image encoder to predict high-quality feature embeddings. By integrating the embedding into an image restoration network via cross-attention, we are able to pilot the model to learn a high-fidelity image reconstruction. The controller itself will also output a degradation feature that matches the real corruptions of the input, yielding a natural classifier for different degradation types. In addition, we construct a mixed degradation dataset with synthetic captions for DA-CLIP training. Our approach advances state-of-the-art performance on both \emph{degradation-specific} and \emph{unified} image restoration tasks, showing a promising direction of prompting image restoration with large-scale pretrained vision-language models. Our code is available at https://github.com/Algolzw/daclip-uir.

研究の動機と目的

大規模な vision-language モデル（VLM）を活用して、普遍的な画像復元を動機づけ、実現する。
入力の劣化とVLMのテキストプロンプト間の特徴のずれを、分解埋め込みを予測することにより緩和する。
チューニングされた VLM からの高品質なコンテンツ埋め込みを、クロスアテンションを通じて復元ネットワークに統合する。
分解対応モデルを訓練するための合成キャプションを用いた混合分解データセットを開発する。
分解特異的と統一画像復元タスクの両方で改善を示す。

提案手法

CLIP 画像エンコーダのゼロ初期化拡張としての画像コントローラを導入し、二つの出力を生成する。分解埋め込みとエンコーダブロックを調整する隠れ制御を出力する。
CLIP エンコーダを凍結し、画像コンテンツと分解埋め込みを、それぞれのテキスト対応と整列させる対比的目的で画像コントローラを訓練する。
HQ コンテンツ埋め込みをクリーンなキャプションと、分解埋め込みを対応する分解プロンプトと整列させる結合対比損失を用いる。
IR-SDE の U-Net ベースの拡散バックボーンの下位ブロックでクロスアテンションを介してHQコンテンツ埋込みを復元ネットワークに組み込む。
コントローラで分解埋め込みを予測して統一画像復元を可能にし、分解コンテキストを活用するプロンプト学習モジュールを採用する。
HQ 画像に対してBLIPキャプションで生成された混合分解データセットを、LQ 入力および分解ラベルとともに訓練する。

実験結果

リサーチクエスチョン

RQ1分解を認識するコントローラは、事前学習済みのビジョン-言語モデルが劣化画像に対してHQのコンテンツ特徴を生成することを可能にするか？
RQ2クロスアテンションを介してHQコンテンツ埋め込みを統合することは、複数のタスクにおいて分解特異的な復元性能を向上させるか？
RQ3分解埋め込みは、多様な分解タイプを扱う統一的な画像復元モデルを支援できるか？
RQ4復元タスクのための横断的モード整合を可能にする、混合分解・キャプション生成トレーニングデータの有効性はどれほどか？
RQ5DA-CLIP を組み込む際のモデルの複雑さと復元性能の向上のトレードオフはどのようになるか？

主な発見

DA-CLIP は、10種の分解全般にわたり知覚指標および歪み指標（LPIPS、FID、PSNR、SSIM）を改善し、分解特異的タスクでベースラインを上回る。
DA-CLIP は、除雨（deraining）で最先端の知覚結果を達成し、評価されたすべてのタスクで IR-SDE を一貫して改善する。
統一画像復元では、DA-CLIP の統合が最良の知覚結果（特にFIDで）を達成し、分解全体で平均してIR-SDEを上回る。
DA-CLIP の分解分類器は、10 種類の分解で高精度を達成（ぼやけを除く；91.6%）し、効果的な分解識別を実証している。
DA-CLIP は拡散ベースと非拡散の復元モデルの双方と互換性があり（例：NAFNet）、複数の分解に対して性能を向上させる。
本手法はベースラインに比べてメモリ要件を増加させるが、テスト時コストの変化はほとんどない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。