[論文レビュー] AdaEdit: Adaptive Temporal and Channel Modulation for Flow-Based Image Editing
AdaEdit はトレーニング不要の適応編集フレームワークを flowベース画像編集に導入し、Progressive Injection Schedule と Channel-Selective Latent Perturbation を用いて背景保持を改善しつつ編集品質の低下を最小化します。
Inversion-based image editing in flow matching models has emerged as a powerful paradigm for training-free, text-guided image manipulation. A central challenge in this paradigm is the injection dilemma: injecting source features during denoising preserves the background of the original image but simultaneously suppresses the model's ability to synthesize edited content. Existing methods address this with fixed injection strategies -- binary on/off temporal schedules, uniform spatial mixing ratios, and channel-agnostic latent perturbation -- that ignore the inherently heterogeneous nature of injection demand across both the temporal and channel dimensions. In this paper, we present AdaEdit, a training-free adaptive editing framework that resolves this dilemma through two complementary innovations. First, we propose a Progressive Injection Schedule that replaces hard binary cutoffs with continuous decay functions (sigmoid, cosine, or linear), enabling a smooth transition from source-feature preservation to target-feature generation and eliminating feature discontinuity artifacts. Second, we introduce Channel-Selective Latent Perturbation, which estimates per-channel importance based on the distributional gap between the inverted and random latents and applies differentiated perturbation strengths accordingly -- strongly perturbing edit-relevant channels while preserving structure-encoding channels. Extensive experiments on the PIE-Bench benchmark (700 images, 10 editing types) demonstrate that AdaEdit achieves an 8.7% reduction in LPIPS, a 2.6% improvement in SSIM, and a 2.3% improvement in PSNR over strong baselines, while maintaining competitive CLIP similarity. AdaEdit is fully plug-and-play and compatible with multiple ODE solvers including Euler, RF-Solver, and FireFlow. Code is available at https://github.com/leeguandong/AdaEdit
研究の動機と目的
- inversion-based flow 編集における固定注入戦略の制限を識別する。
- 時間的注入とチャネル摂動を適応的に管理するトレーニング不要フレームワークを開発する。
- Progressive schedules とチャネル認識摂動が編集を損なわず背景保持を改善する評価を行う。
- 包括的ベンチマークで複数の ODE ソルバーとプラグアンドプレイ互換を実証する。
提案手法
- 二値の時間的注入を連続的減衰スケジュール(シグモイド、コサイン、リニア)に置き換え、時間とともにソース特徴の注入を滑らかに減少させる。
- inverted latent とランダム latent の分布的ギャップからチャネルごとの重要度を計算し、チャネル特異的な摂動強度を適用する。
- Latents-Shift 期間中にチャネル依存の AdaIN を適用し、編集に関係するチャネルを優先的に摂動しつつ構造チャネルを保持する。
- アブレーションで Soft Mask や Adaptive KV Ratio を追加モジュールとして検討する。
- AdaEdit が Euler、RF-Solver、FireFlow などのソルバーと再訓練なしでプラグアンドプレイとなることを保証する。)
実験結果
リサーチクエスチョン
- RQ1 Progressive で二値でない注入スケジュールが編集アーティファクトと背景保持にどう影響するか?
- RQ2 チャネルごとの摂動ウェイトが編集に関係するチャネルに摂動を集中させることで編集品質を向上させるか?
- RQ3 PIE-Bench における背景忠実度と編集精度に対する AdaEdit の影響はどの程度か?
- RQ4 トレーニング不要設定で異なる ODEソルバーとの互換性はどの程度か?
主な発見
| Method | LPIPS ↓ | SSIM ↑ | PSNR ↑ | CLIP ↑ |
|---|---|---|---|---|
| ProEdit | 0.2960 | 0.7244 | 19.13 | 0.2617 |
| AdaEdit (ours) | 0.2703 | 0.7433 | 19.58 | 0.2593 |
- AdaEdit は PIE-Bench で ProEdit と比較して LPIPS を 8.7% 削減。
- AdaEdit は ProEdit より SSIM を 2.6% 向上。
- AdaEdit は ProEdit より PSNR を 2.3% 向上。
- AdaEdit は ProEdit に対して CLIP 類似度を維持しつつわずかに低下(-0.9%) 。
- このアプローチは 10 種類の編集タイプ全体で背景保持を大幅に改善し、編集精度の大幅な低下を招くことなく全体的に保持性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。