[論文レビュー] Text2LIVE: Text-Driven Layered Image and Video Editing
Text2LIVE は、入力画像や動画に対してゼロショット・テキスト誘導・局所的な編集を行う。編集レイヤー(RGBA)を生成して入力画像や動画に合成し、マスクや事前学習済みジェネレータなしで内部の画像-テキストデータセットで訓練され、ニューラル層状アトラスを介して時間的一貫性のある映像編集へ拡張する。
We present a method for zero-shot, text-driven appearance manipulation in natural images and videos. Given an input image or video and a target text prompt, our goal is to edit the appearance of existing objects (e.g., object's texture) or augment the scene with visual effects (e.g., smoke, fire) in a semantically meaningful manner. We train a generator using an internal dataset of training examples, extracted from a single input (image or video and target text prompt), while leveraging an external pre-trained CLIP model to establish our losses. Rather than directly generating the edited output, our key idea is to generate an edit layer (color+opacity) that is composited over the original input. This allows us to constrain the generation process and maintain high fidelity to the original input via novel text-driven losses that are applied directly to the edit layer. Our method neither relies on a pre-trained generator nor requires user-provided edit masks. We demonstrate localized, semantic edits on high-resolution natural images and videos across a variety of objects and scenes.
研究の動機と目的
- 実世界の画像や動画に対する意味論的で局所的な外観編集を、シンプルなテキストプロンプトを用いて動機づけ、実現する。
- 入力に対して RGBA 編集レイヤーを生成して合成し、内容の忠実性を保つ編集フレームワークを開発する。
- 事前学習済みジェネレータへの依存を避けるため、単一入力と CLIP ベースの損失を用いた内部学習を活用する。
- 時間的一貫性を確保するため、映像へ適用する際にはニューラル層状アトラスを導入する。
- オブジェクトやシーン全体にわたる多様な編集(テクスチャや半透明効果)を示す。
提案手法
- 編集レイヤー E = {C, α} を出力するジェネレータ Gθ を導入し、これをソース I_s の上に合成して I_o = α·C + (1−α)·I_s を生成する。
- 編集を導くために 3 つの CLIP ベースの損失を使用する:L_comp(最終画像が目標テキスト T に一致)、L_screen(編集レイヤーがグリーンスクリーン監視用の画面ベースプロンプト T_screen に一致)、L_structure(CLIP 特徴の自己相似性を介して内容構造を保持)。
- 編集範囲を制御するスパース性正則化 L_reg を適用して α をスパース化する。
- テキスト ROI プロンプト T_ROI からの relevancy マップ R(I_s) を用いて α を初期化し、訓練中にアニーリングする。
- 内部データセット(単一入力画像 I_s とターゲットテキスト T を拡張して多様な訓練ペアを作成)で Gθ をゼロから訓練する。
- 映像へ拡張する際には Neural Layered Atlases (NLA) を採用する。アトラスレベルのレイヤー E_A を編集するジェネレータを訓練し、それらを固定 UV マッピング M を介してフレームへマップすることで時間的一貫性を確保する。
実験結果
リサーチクエスチョン
- RQ1テキスト駆動の局所編集を、マスクや事前学習済みジェネレータなしで実世界の画像に対して生成できるか。
- RQ2RGBA 編集レイヤーを生成することは、直接の画像生成よりも CLIP 指向の編集のコントロールと忠実度を向上させるか。
- RQ3層状アトラス表現を用いた時間的一貫性を持つ映像への拡張は可能か。
- RQ4内部(単一入力)学習とテキストベースの損失が、編集を望ましい領域と意味論へ制約するうえでどの程度効果的か。
主な発見
| Method | AMT Preference (mean ± std) |
|---|---|
| CLIPStyler (image baseline) | 0.85 ± 0.12 |
| VQ-GAN+CLIP (image baseline) | 0.86 ± 0.14 |
| Diffusion+CLIP (image baseline) | 0.82 ± 0.11 |
| Atlas baseline (video) | 0.73 ± 0.14 |
| Frames baseline (video) | 0.74 ± 0.15 |
- この手法は、質感の変更や半透明効果を含む、さまざまなオブジェクトやシーンに対して意味論的で局所的な編集を可能にする。
- 編集レイヤー(RGBA)は専用の CLIP ベースの損失を介して局所化と内容を精密に制御でき、ターゲットプロンプトへの忠実度を向上させる。
- 単一入力からの内部学習と拡張されたテキスト-画像ペアにより、外部ジェネレータやマスクを必要とせず高品質な編集が得られる。
- Neural Layered Atlases を用いた映像拡張は、アトラス編集からフレームへの時間的一貫性のある編集を実現する。
- 主観的な AMT 評価は、画像・映像タスク全般でマスクなしのベースラインに対して競合するか、または上回る性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。