Skip to main content
QUICK REVIEW

[論文レビュー] L-CAD: Language-based Colorization with Any-level Descriptions using Diffusion Priors

Zheng Chang, Shuchen Weng|arXiv (Cornell University)|May 24, 2023
Human Motion and Animation被引用数 9
ひとこと要約

L-CAD は、任意レベルの自然言語説明に基づいてカラーリングを行う事前学習済みのクロスモーダリティ拡散モデルを用い、空間構造を保持するモジュール、ゴースティングを防ぐモジュール、インスタンス認識のカラー割り当てを可能にするモジュールを備える。

ABSTRACT

Language-based colorization produces plausible and visually pleasing colors under the guidance of user-friendly natural language descriptions. Previous methods implicitly assume that users provide comprehensive color descriptions for most of the objects in the image, which leads to suboptimal performance. In this paper, we propose a unified model to perform language-based colorization with any-level descriptions. We leverage the pretrained cross-modality generative model for its robust language understanding and rich color priors to handle the inherent ambiguity of any-level descriptions. We further design modules to align with input conditions to preserve local spatial structures and prevent the ghosting effect. With the proposed novel sampling strategy, our model achieves instance-aware colorization in diverse and complex scenarios. Extensive experimental results demonstrate our advantages of effectively handling any-level descriptions and outperforming both language-based and automatic colorization methods. The code and pretrained models are available at: https://github.com/changzheng123/L-CAD.

研究の動機と目的

  • 完全な説明、部分的な説明、または乏しい説明からでも効果的なカラーリングを実現する。
  • Stable Diffusion の言語理解とカラー事前知識を活用して説明の曖昧さに対処する。
  • 横断的モードデコード中に局所的な空間構造を保持し、カラー・ゴーストを防ぐ。
  • 複数のオブジェクトを含む複雑なシーンに対してインスタンス認識カラー割り当てを提供する。

提案手法

  • クロスモーダリティ事前知識と言語理解を活用するために、Stable Diffusion をバックボーンとして採用する。
  • デコード時にグレースケールの空間構造を保持するため、輝度ガイドの画像圧縮モジュールを導入する。
  • 入力説明と潜在特徴を整合させるため、ダウンサンプリングモジュールで通常の畳み込みを Channel-Extended Convolution (CEC) ブロックに置換する。
  • 潜在空間では、CLIP ベースのテキストエンコーディングを用いて任意レベルの説明を条件付けし、潜在空間の整合性を通じてカラー・ゴーストを回避する。
  • 参照セグメンテーション推定を用い、領域への順次的な注意機構に基づくカラー割り当てを行うインスタンス認識サンプリング戦略を実装する。
  • 2段階で学習する。任意レベルの記述でピクセル空間の訓練を行い、その後、固定された事前学習済み重みを用いて潜在空間の拡散微調整を行う。

実験結果

リサーチクエスチョン

  • RQ1完全な説明から乏しい詳細さまで変化する記述を、言語ベースのカラー化はどのように扱えるか?
  • RQ2拡散前提モデルを導いて、カラーをグレースケールの空間構造と整列させ、カラーゴーストを回避できるか?
  • RQ3複雑なシーンの対応するオブジェクトに対してインスタンス認識サンプリングがどれだけ効果的にカラーを割り当てられるか?
  • RQ4輝度ガイド付き圧縮と意味的に整列した潜在表現がカラーリング品質に与える影響は何か?

主な発見

  • L-CAD は、拡張 COCO-Stuff およびマルチインスタンスデータセットにおいて、完全/部分の説明を対象とする言語ベースのカラーリングで最先端の性能を達成する。
  • L-CAD は、評価データセットで PSNR、SSIM、LPIPS の指標において、言語ベースおよび自動カラー化法の両方を上回る。
  • ユーザ研究では、L-CAD がベースラインと比べて2つのデータセットで高い対応度と現実感スコアを示した。
  • アブレーション研究により、輝度ガイド付き圧縮、意味的に整列した潜在表現、およびインスタンス認識サンプリングがカラーリング品質に効果的であることが確認された。
  • 乏しいレベルの条件付けを伴う ImageNet では、L-CAD は競争力のある FID、PSNR、SSIM、LPIPS を達成し、最小限の指示下での堅牢な自動カラー化を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。