[论文解读] LibraGen: Playing a Balance Game in Subject-Driven Video Generation
LibraGen 将 S2V 视频生成框架化为在固有 VGFM 能力与新的 S2V 能力之间的平衡,通过以质量为中心的数据筛选、Tune-to-Balance 训练后微调,以及时变动态 CFG,实现对有限数据条件下的多主体视频生成的卓越性能。
With the advancement of video generation foundation models (VGFMs), customized generation, particularly subject-to-video (S2V), has attracted growing attention. However, a key challenge lies in balancing the intrinsic priors of a VGFM, such as motion coherence, visual aesthetics, and prompt alignment, with its newly derived S2V capability. Existing methods often neglect this balance by enhancing one aspect at the expense of others. To address this, we propose LibraGen, a novel framework that views extending foundation models for S2V generation as a balance game between intrinsic VGFM strengths and S2V capability. Specifically, guided by the core philosophy of "Raising the Fulcrum, Tuning to Balance," we identify data quality as the fulcrum and advocate a quality-over-quantity approach. We construct a hybrid pipeline that combines automated and manual data filtering to improve overall data quality. To further harmonize the VGFM's native capabilities with its S2V extension, we introduce a Tune-to-Balance post-training paradigm. During supervised fine-tuning, both cross-pair and in-pair data are incorporated, and model merging is employed to achieve an effective trade-off. Subsequently, two tailored direct preference optimization (DPO) pipelines, namely Consis-DPO and Real-Fake DPO, are designed and merged to consolidate this balance. During inference, we introduce a time-dependent dynamic classifier-free guidance scheme to enable flexible and fine-grained control. Experimental results demonstrate that LibraGen outperforms both open-source and commercial S2V models using only thousand-scale training data.
研究动机与目标
- 识别将 VGFM 扩展到 S2V 生成时的核心权衡(保留原生能力 vs. 主体一致性)。
- 提出以质量优于数量的数据筛选流程,以组装高质量的 S2V 训练数据。
- 开发 Tune-to-Balance 训练后范式,以协调成对数据与跨对数据。
- 设计两条 DPO 流水线(Consis-DPO 与 Real-Fake DPO)并合并以实现平衡优化。
- 引入时变的无条件引导策略以实现对推断阶段的可控性。
提出的方法
- distill 将百万级原始数据集提炼为千级高质量、人工对齐的子集的全自动与人工筛选的数据筛选流程。
- 将轻量级的主体注入 MM-DiT 扩散骨干,以在尽量不改变基础模型的情况下实现 S2V。
- 推理阶段的两阶段提示改写器,用以弥合用户提示与训练描述之间的差距。
- 使用 In-pair 与 Cross-pair 数据进行 SFT,通过 LoRA 合并来平衡主体保真度与基础模型能力之间的取舍。
- 两条 DPO 流水线(Consis-DPO 与 Real-Fake DPO)合并以巩固平衡,且搭配精心构造的正负样本。
- 推理阶段的时变动态 CFG,以在去噪步骤中调整参考条件与文本提示的影响力。
实验结果
研究问题
- RQ1如何在不牺牲 VGFM 的内在运动性与美学的前提下实现稳健的主体一致性视频生成?
- RQ2以质量为中心的数据筛选方法是否能在有限数据下提升 S2V 的表现?
- RQ3如何平衡成对数据与跨对数据的微调,以优化主体保真度与提示遵循性?
- RQ4训练后优化(DPO)策略是否能在不降低运动性或视觉质量的前提下改善主体一致性?
- RQ5时变引导策略是否能在推断阶段对参考与提示的影响提供更细粒度的控制?
主要发现
| Motion Quality | Visual Quality | Text Align. |
|---|---|---|
| 0.5373 | 0.9924 | 0.6491 |
| 0.4965 | 0.9865 | 0.6479 |
| 0.3830 | 0.9853 | 0.6356 |
| 0.3844 | 0.9873 | 0.6410 |
| 0.5380 | 0.9930 | 0.6496 |
- LibraGen 在千级训练数据集上对开源与商业化的 S2V 模型达到最新状态的性能。
- 它在运动平滑性与运动质量方面表现出色,评估指标中 Motion Smoothness 为 0.5380,Motion Quality 为 0.9930。
- 在视觉美学(AES 0.6496、IQA 71.60)和文本对齐(TA 3.594)方面具有竞争力。
- 在单主体和多主体任务中均维持卓越的主体一致性,对所有基线的正向 GSB 比如对 MAGREF 高达 0.700。
- 两条 DPO 流水线(Consis-DPO 与 Real-Fake DPO)合并以在保持主体一致性的同时维持视觉与运动质量。
- 推断阶段的动态 CFG 提高了文本对齐,在不牺牲其他指标的情况下,但带来延迟增加。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。