QUICK REVIEW

[论文解读] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Yiqi Lin, Guoqiang Liang|arXiv (Cornell University)|Mar 2, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

Kiwi-Edit 展示 RefVIE 数据和统一的 MLLM-DiT 架构，用于执行仅指令和参考引导的视频编辑，在公开基准上达到最先进的结果。

ABSTRACT

Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.

研究动机与目标

解决指令-参考引导的视频编辑高质量数据稀缺的问题。
通过现有编辑对成对关系合成参考图像，创建大规模开源数据集 RefVIE。
开发统一的编辑模型 Kiwi-Edit，将多模态引导整合以实现准确、时间上连贯的编辑。

提出的方法

通过将 370 万候选样本扩展为 477 千个四元组（V_src, T_inst, I_ref, V_tgt），使用定位、分割和图像编辑模型来合成参考。
提供严格的资格筛选流程，包括使用 Qwen3-VL-32B 与 SAM 进行定位、使用 Qwen-Image-Edit-2511 进行参考合成，以及使用 MLLM 与基于 CLIP 的去重进行质量控制。
提出 Kiwi-Edit，一种统一架构，将冻结的多模态大语言模型（Qwen2.5-VL-3B）与扩散变换器融合，通过查询连接器（Query Connector）和潜在连接器（Latent Connector）为 DiT 的交叉注意力生成上下文令牌。
采用混合潜在注入：对源视频特征进行逐元素相加（按时间步的标量调制以实现结构信息），以及将参考特征以序列连接的方式进行纹理迁移。
以三阶段课程进行训练：MLLM-DiT 匹配、指令微调、以及参考引导微调。

实验结果

研究问题

RQ1如何扩展高质量的指令-参考数据用于视频编辑？
RQ2统一的 MLLM-DiT 模型能否有效利用指令与参考引导进行视频编辑？
RQ3哪些架构设计最能在保留源结构的同时实现对参考的精确纹理迁移？
RQ4逐步训练课程是否能提高多模态视频生成的收敛性和编辑质量？

主要发现

RefVIE 是面向指令-参考引导视频编辑的最大开源数据集，包含 477K 个四元组。
基于 MLLM-DiT 架构的 Kiwi-Edit 在仅指令和指令-参考任务中于开源模型中达到最先进的性能。
双连接器条件（指令查询和参考潜在变量）相比仅使用指令，能提升参考保真度。
混合潜在注入策略既保留源结构，又实现高保真纹理从参考的迁移。
三阶段课程（对齐、指令微调、参考微调）实现了稳定收敛和更高的编辑质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。