Skip to main content
QUICK REVIEW

[论文解读] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Yiqi Lin, Guoqiang Liang|arXiv (Cornell University)|Mar 2, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

Kiwi-Edit 展示 RefVIE 数据和统一的 MLLM-DiT 架构,用于执行仅指令和参考引导的视频编辑,在公开基准上达到最先进的结果。

ABSTRACT

Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.

研究动机与目标

  • 解决指令-参考引导的视频编辑高质量数据稀缺的问题。
  • 通过现有编辑对成对关系合成参考图像,创建大规模开源数据集 RefVIE。
  • 开发统一的编辑模型 Kiwi-Edit,将多模态引导整合以实现准确、时间上连贯的编辑。

提出的方法

  • 通过将 370 万候选样本扩展为 477 千个四元组(V_src, T_inst, I_ref, V_tgt),使用定位、分割和图像编辑模型来合成参考。
  • 提供严格的资格筛选流程,包括使用 Qwen3-VL-32B 与 SAM 进行定位、使用 Qwen-Image-Edit-2511 进行参考合成,以及使用 MLLM 与基于 CLIP 的去重进行质量控制。
  • 提出 Kiwi-Edit,一种统一架构,将冻结的多模态大语言模型(Qwen2.5-VL-3B)与扩散变换器融合,通过查询连接器(Query Connector)和潜在连接器(Latent Connector)为 DiT 的交叉注意力生成上下文令牌。
  • 采用混合潜在注入:对源视频特征进行逐元素相加(按时间步的标量调制以实现结构信息),以及将参考特征以序列连接的方式进行纹理迁移。
  • 以三阶段课程进行训练:MLLM-DiT 匹配、指令微调、以及参考引导微调。

实验结果

研究问题

  • RQ1如何扩展高质量的指令-参考数据用于视频编辑?
  • RQ2统一的 MLLM-DiT 模型能否有效利用指令与参考引导进行视频编辑?
  • RQ3哪些架构设计最能在保留源结构的同时实现对参考的精确纹理迁移?
  • RQ4逐步训练课程是否能提高多模态视频生成的收敛性和编辑质量?

主要发现

  • RefVIE 是面向指令-参考引导视频编辑的最大开源数据集,包含 477K 个四元组。
  • 基于 MLLM-DiT 架构的 Kiwi-Edit 在仅指令和指令-参考任务中于开源模型中达到最先进的性能。
  • 双连接器条件(指令查询和参考潜在变量)相比仅使用指令,能提升参考保真度。
  • 混合潜在注入策略既保留源结构,又实现高保真纹理从参考的迁移。
  • 三阶段课程(对齐、指令微调、参考微调)实现了稳定收敛和更高的编辑质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。