[论文解读] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance
Kiwi-Edit 展示 RefVIE 数据和统一的 MLLM-DiT 架构,用于执行仅指令和参考引导的视频编辑,在公开基准上达到最先进的结果。
Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.
研究动机与目标
- 解决指令-参考引导的视频编辑高质量数据稀缺的问题。
- 通过现有编辑对成对关系合成参考图像,创建大规模开源数据集 RefVIE。
- 开发统一的编辑模型 Kiwi-Edit,将多模态引导整合以实现准确、时间上连贯的编辑。
提出的方法
- 通过将 370 万候选样本扩展为 477 千个四元组(V_src, T_inst, I_ref, V_tgt),使用定位、分割和图像编辑模型来合成参考。
- 提供严格的资格筛选流程,包括使用 Qwen3-VL-32B 与 SAM 进行定位、使用 Qwen-Image-Edit-2511 进行参考合成,以及使用 MLLM 与基于 CLIP 的去重进行质量控制。
- 提出 Kiwi-Edit,一种统一架构,将冻结的多模态大语言模型(Qwen2.5-VL-3B)与扩散变换器融合,通过查询连接器(Query Connector)和潜在连接器(Latent Connector)为 DiT 的交叉注意力生成上下文令牌。
- 采用混合潜在注入:对源视频特征进行逐元素相加(按时间步的标量调制以实现结构信息),以及将参考特征以序列连接的方式进行纹理迁移。
- 以三阶段课程进行训练:MLLM-DiT 匹配、指令微调、以及参考引导微调。
实验结果
研究问题
- RQ1如何扩展高质量的指令-参考数据用于视频编辑?
- RQ2统一的 MLLM-DiT 模型能否有效利用指令与参考引导进行视频编辑?
- RQ3哪些架构设计最能在保留源结构的同时实现对参考的精确纹理迁移?
- RQ4逐步训练课程是否能提高多模态视频生成的收敛性和编辑质量?
主要发现
- RefVIE 是面向指令-参考引导视频编辑的最大开源数据集,包含 477K 个四元组。
- 基于 MLLM-DiT 架构的 Kiwi-Edit 在仅指令和指令-参考任务中于开源模型中达到最先进的性能。
- 双连接器条件(指令查询和参考潜在变量)相比仅使用指令,能提升参考保真度。
- 混合潜在注入策略既保留源结构,又实现高保真纹理从参考的迁移。
- 三阶段课程(对齐、指令微调、参考微调)实现了稳定收敛和更高的编辑质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。