[论文解读] FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation
FC-VFI 对预训练的 I2V 扩散模型进行微调以实现 4× 和 8× 视频帧插值,在高分辨率下实现高保真、时间一致的慢动作视频,推理仅需 10 步。
Large pre-trained video diffusion models excel in video frame interpolation but struggle to generate high fidelity frames due to reliance on intrinsic generative priors, limiting detail preservation from start and end frames. Existing methods often depend on motion control for temporal consistency, yet dense optical flow is error-prone, and sparse points lack structural context. In this paper, we propose FC-VFI for faithful and consistent video frame interpolation, supporting \(4 imes\)x and \(8 imes\) interpolation, boosting frame rates from 30 FPS to 120 and 240 FPS at \(2560 imes 1440\)resolution while preserving visual fidelity and motion consistency. We introduce a temporal modeling strategy on the latent sequences to inherit fidelity cues from start and end frames and leverage semantic matching lines for structure-aware motion guidance, improving motion consistency. Furthermore, we propose a temporal difference loss to mitigate temporal inconsistencies. Extensive experiments show FC-VFI achieves high performance and structural integrity across diverse scenarios.
研究动机与目标
- 驱动在高帧率和高分辨率下实现忠实且一致的视频帧插值(VFI)。
- 在不使用双向推理的前提下,对预训练的 I2V 扩散模型进行 4×/8× VFI 微调。
- 引入时间保真度调制参考(TFMR),从起始/结束帧传播保真度线索。
- 提出时间差分损失以减少时间不一致性,并引入匹配线条件以保持结构。
提出的方法
- 对大规模的 I2V 扩散模型(基于 FM 的)进行 VFI 的微调。
- 通过在时间轴上拼接边界潜变量并对边界帧应用保真度调制,开发时间保真度调制参考(TFMR)。
- 利用从起始/结束帧提取的语义匹配线,通过一个轻量线编码器和一个 DiT 块将边界潜变量进行条件化。
- 引入时间差分损失以鼓励相邻帧之间的动态一致性。
- 通过将 c_s 和 c_e 加到 z_s 和 z_e,并以受控残差注入更新中间潜变量来实现匹配线条件化。

实验结果
研究问题
- RQ1扩散模型的 VFI 是否能够在高分辨率(最高可达 2560×1440)下实现高保真、时间一致的 4× 和 8× 插值?
- RQ2时间保真度调制和语义匹配线是否相对于现有方法在结构完整性与运动一致性方面有所提升?
- RQ3TFMR 在实现高分辨率 VFI 的 10 步推理方面带来哪些效率提升?
- RQ4消融研究(时间参考、保真度调制、时间差分损失、匹配线条件化)对 4× 与 8× 插值的质量指标有何影响?
- RQ5微调一个预训练的 I2V 模型是否足以在标准基准上超越基于扩散和基于光流的基线?
主要发现
| 方法 | PSNR 4× | SSIM 4× | FID 4× | FVD 4× | LPIPS 4× | PSNR 8× | SSIM 8× | FID 8× | FVD 8× | LPIPS 8× |
|---|---|---|---|---|---|---|---|---|---|---|
| GIMM-VFI [6] | 29.05 | 0.901 | 16.22 | 125.42 | 0.061 | 29.49 | 0.907 | 14.75 | 192.36 | 0.048 |
| Ours (2560×1440) | 30.25 | 0.915 | 15.73 | 130.65 | 0.054 | 30.16 | 0.912 | 15.50 | 194.19 | 0.046 |
| FCVG [37] | 26.70 | 0.830 | 20.12 | 330.04 | 0.055 | 25.80 | 0.811 | 21.79 | 251.10 | 0.059 |
| GI [26] | 20.96 | 0.847 | 37.58 | 1310.80 | 0.119 | 21.05 | 0.694 | 39.24 | 940.72 | 0.128 |
| ViBiDSampler [31] | 23.48 | 0.764 | 31.92 | 1375.15 | 0.107 | 20.99 | 0.699 | 36.74 | 978.68 | 0.125 |
| Ours (1024×576) | 31.09 | 0.927 | 14.15 | 120.13 | 0.042 | 31.21 | 0.917 | 14.03 | 187.10 | 0.041 |
- 在 4×/8× 插值方面,与基线相比实现具有竞争力或更高保真度与运动连贯性,且在 8× 的高分辨率 2560×1440 下表现出色。
- 表 1 显示在 2560×1440 分辨率下的 ours:4× PSNR 30.25,SSIM 0.915,FID 15.73,FVD 130.65,LPIPS 0.054;8×:PSNR 30.16,SSIM 0.912,FID 15.50,FVD 194.19,LPIPS 0.046。
- ours 在 1024×576 分辨率下:4× PSNR 31.09,SSIM 0.927,FID 14.15,FVD 120.13,LPIPS 0.042;8×:PSNR 31.21,SSIM 0.917,FID 14.03,FVD 187.10,LPIPS 0.041。
- 表 2 的消融研究显示时间参考、保真度调制、时间差分损失以及匹配线条件化带来额外的增益。
- 表 3 显示在 10 次去噪推理下的推理效率,在可比分辨率下优于其他基于扩散的方法。
![Fig. 2 : Qualitative comparison of interpolation results. (Top) Comparison with GIMM-VFI [ 6 ] on DAVIS-2017 [ 19 ] at $2560\times 1440$ resolution under $8\times$ interpolation. Ours better handles challenging conditions such as high-contrast lighting, small objects, and occlusion, avoiding artifac](https://ar5iv.labs.arxiv.org/html/2603.04899/assets/x2.png)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。