QUICK REVIEW

[論文レビュー] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Yiqi Lin, Guoqiang Liang|arXiv (Cornell University)|Mar 2, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

Kiwi-EditはRefVIEデータと統一的なMLLM-DiTアーキテクチャを提示し、指示のみおよび参照ガイド付きの映像編集を実行。オープンベンチマークで最先端の結果を達成。

ABSTRACT

Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.

研究の動機と目的

指示-参照ガイド付き映像編集の高品質データの不足に対処する。
既存の編集ペアから参照画像を合成して大規模なオープンデータRefVIEを作成する。
多模態ガイダンスを統合したKiwi-Editという統一編集モデルを開発し、正確で時間的一貫性のある編集を実現する。

提案手法

グラウンド付け、セグメンテーション、画像編集モデルを用いて4-tuples（V_src, T_inst, I_ref, V_tgt）へ拡張した3.7M候補サンプルからRefVIEを構築し、参照を合成する。
Qwen3-VL-32BとSAMによるグラウンド付け、Qwen-Image-Edit-2511による参照合成、MLLMとCLIPベースの重複排除を含む厳格な適格化パイプラインを提供する。
凍結されたMultimodal LLM（Qwen2.5-VL-3B）とDiffusion Transformerを統合し、Query ConnectorとLatent Connectorを用いてDiTのクロスアテンションの文脈トークンを生成する統一アーキテクチャKiwi-Editを提案する。
構造のためにソース映像特徴の要素ごとの加算（タイムステップ依存のスカラーで調整）と、参照特徴の系列連結によるテクスチャ transferを組み合わせたハイブリッド潜在注入を採用する。
ミニ三段階のカリキュラムで訓練する：MLLM-DiT整合、指示に基づく微調整、参照ガイド付き微調整。

実験結果

リサーチクエスチョン

RQ1映像編集のための高品質な指示-参照データをどう規模拡大するか。
RQ2統一的なMLLM-DiTモデルは指示と参照ガイダンスの両方を映像編集に効果的に活用できるか。
RQ3ソースの構造を保持しつつ参照からのテクスチャ転送を正確に行う最適なアーキテクチャ設計はどれか。
RQ4段階的な訓練カリキュラムはマルチモーダル映像生成における収束と編集品質を改善するか。

主な発見

RefVIEは477Kの4ツーペルを持つ指示-参照ガイド付き映像編集向けの最大規模のオープンソースデータセットである。
MLLM-DiTアーキテクチャを用いたKiwi-Editは、オープンモデルの指示のみおよび指示-参照タスクの串で最先端の性能を達成。
指示クエリと参照潜在表現のデュアルコネクタ条件付けは、指示のみの場合より参照忠実度を改善する。
ハイブリッド潜在注入戦略はソース構造を保持しつつ参照からの高忠実なテクスチャ転送を可能にする。
三段階のカリキュラム（整合、指示微調整、参照微調整）は安定した収束と編集品質の向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。