[論文レビュー] FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation
FC-VFIは事前学習済みI2V拡散モデルを4×と8×のビデオフレーム補間に微調整し、10ステップ推論で高忠実度、時系列的一貫性を持つスローモーション動画を最大2560×1440解像度まで実現する。
Large pre-trained video diffusion models excel in video frame interpolation but struggle to generate high fidelity frames due to reliance on intrinsic generative priors, limiting detail preservation from start and end frames. Existing methods often depend on motion control for temporal consistency, yet dense optical flow is error-prone, and sparse points lack structural context. In this paper, we propose FC-VFI for faithful and consistent video frame interpolation, supporting \(4 imes\)x and \(8 imes\) interpolation, boosting frame rates from 30 FPS to 120 and 240 FPS at \(2560 imes 1440\)resolution while preserving visual fidelity and motion consistency. We introduce a temporal modeling strategy on the latent sequences to inherit fidelity cues from start and end frames and leverage semantic matching lines for structure-aware motion guidance, improving motion consistency. Furthermore, we propose a temporal difference loss to mitigate temporal inconsistencies. Extensive experiments show FC-VFI achieves high performance and structural integrity across diverse scenarios.
研究の動機と目的
- faithfulかつ一貫したビデオフレーム補間(VFI)を高フレームレートと高解像度で実現することを動機付ける。
- bidirectional推論なしで4×/8×VFIのために事前学習済みI2V拡散モデルを微調整する。
- 開始/終了フレームから忠実性の手掛かりを伝播させる Temporal Fidelity Modulation Reference(TFMR)を導入する。
- 時間的な不整合を低減する Temporal Difference Lossと、構造を保持するためのマッチングライン条件付けを提案する。)
- Propose temporal difference loss to reduce temporal inconsistencies and a matching lines conditioning to preserve structure.
提案手法
- VFIのために大規模I2V拡散モデル(FMベース)を微調整する。
- Boundary latentを時系列軸に沿って結合し、境界フレームへ忠実性 modulationを適用することでTemporal Fidelity Modulation Reference(TFMR)を開発する。
- 開始/終了フレームから抽出したセマンティックマッチングラインを用いて、軽量なラインエンコーダと単一のDiTブロックを介して boundary latentを条件付ける。
- 連続フレーム間の動的一貫性を促す temporal difference lossを導入する。
- c_sとc_eをz_sとz_eに追加してマッチングライン条件付けを挿入し、途中の潜在を制御された残差注入で更新する。

実験結果
リサーチクエスチョン
- RQ1拡散ベースのVFIモデルは高解像度で高忠実度・時間的一貫性のある4×および8×補間を実現できるか(最大2560×1440)?
- RQ2時間的忠実性 modulationとセマンティックマッチングラインは構造的完全性と運動的一貫性を従来法より改善するか?
- RQ3TFMRの導入により高解像度VFIで10ステップ推論の効率向上はどの程度か?
- RQ4アブレーション(時間的参照、忠実性 modulation、時間差loss、マッチングライン)による4×および8×補間の品質指標への影響は?
- RQ5事前学習済みI2Vモデルの微調整だけで、標準ベンチマークにおける拡散ベースおよび光学フローベースのベースラインを上回れるか?
主な発見
| Method | PSNR 4× | SSIM 4× | FID 4× | FVD 4× | LPIPS 4× | PSNR 8× | SSIM 8× | FID 8× | FVD 8× | LPIPS 8× |
|---|---|---|---|---|---|---|---|---|---|---|
| GIMM-VFI [6] | 29.05 | 0.901 | 16.22 | 125.42 | 0.061 | 29.49 | 0.907 | 14.75 | 192.36 | 0.048 |
| Ours (2560×1440) | 30.25 | 0.915 | 15.73 | 130.65 | 0.054 | 30.16 | 0.912 | 15.50 | 194.19 | 0.046 |
| FCVG [37] | 26.70 | 0.830 | 20.12 | 330.04 | 0.055 | 25.80 | 0.811 | 21.79 | 251.10 | 0.059 |
| GI [26] | 20.96 | 0.847 | 37.58 | 1310.80 | 0.119 | 21.05 | 0.694 | 39.24 | 940.72 | 0.128 |
| ViBiDSampler [31] | 23.48 | 0.764 | 31.92 | 1375.15 | 0.107 | 20.99 | 0.699 | 36.74 | 978.68 | 0.125 |
| Ours (1024×576) | 31.09 | 0.927 | 14.15 | 120.13 | 0.042 | 31.21 | 0.917 | 14.03 | 187.10 | 0.041 |
- 高解像度2560×1440に対しても4×/8×補間で競合的または優れた忠実度と運動一貫性を達成。8×補間での高解像度を含む。
- Table 1: Ours (2560×1440) 4×: PSNR 30.25, SSIM 0.915, FID 15.73, FVD 130.65, LPIPS 0.054; 8×: PSNR 30.16, SSIM 0.912, FID 15.50, FVD 194.19, LPIPS 0.046。
- Ours (1024×576) 4×: PSNR 31.09, SSIM 0.927, FID 14.15, FVD 120.13, LPIPS 0.042; 8×: PSNR 31.21, SSIM 0.917, FID 14.03, FVD 187.10, LPIPS 0.041。
- Table 2のアブレーションは、時間的参照、忠実性 modulation、時間差loss、マッチングライン条件付けからの付加的な利得を示す。
- Table 3は10回のデノイジングステップでの推論効率を示し、同等解像度の他の拡散ベース手法より高速である。
![Fig. 2 : Qualitative comparison of interpolation results. (Top) Comparison with GIMM-VFI [ 6 ] on DAVIS-2017 [ 19 ] at $2560\times 1440$ resolution under $8\times$ interpolation. Ours better handles challenging conditions such as high-contrast lighting, small objects, and occlusion, avoiding artifac](https://ar5iv.labs.arxiv.org/html/2603.04899/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。