[論文レビュー] UniE2F: A Unified Diffusion Framework for Event-to-Frame Reconstruction with Video Foundation Models
UniE2F は sparse event data によってガイドされた事前学習済みのビデオ拡散モデルを用い、ハイファイデリックなフレームを再構成する。ビデオフレーム補間と予測へゼロショット拡張、イベントベースのインターフレーム残差ガイダンスを導入し、イベント表現で微調整する。
Event cameras excel at high-speed, low-power, and high-dynamic-range scene perception. However, as they fundamentally record only relative intensity changes rather than absolute intensity, the resulting data streams suffer from a significant loss of spatial information and static texture details. In this paper, we address this limitation by leveraging the generative prior of a pre-trained video diffusion model to reconstruct high-fidelity video frames from sparse event data. Specifically, we first establish a baseline model by directly applying event data as a condition to synthesize videos. Then, based on the physical correlation between the event stream and video frames, we further introduce the event-based inter-frame residual guidance to enhance the accuracy of video frame reconstruction. Furthermore, we extend our method to video frame interpolation and prediction in a zero-shot manner by modulating the reverse diffusion sampling process, thereby creating a unified event-to-frame reconstruction framework. Experimental results on real-world and synthetic datasets demonstrate that our method significantly outperforms previous approaches both quantitatively and qualitatively. We also refer the reviewers to the video demo contained in the supplementary material for video results. The code will be publicly available at https://github.com/CS-GangXu/UniE2F.
研究の動機と目的
- sparse event data とリッチなビデオテクスチャを、事前学習済みのビデオ拡散モデルで bridge。
- イベントベースのインターフレーム残差ガイダンスを導入して、フレーム忠実度を向上。
- 拡散サンプリングを変調してゼロショットのビデオフレーム補間と予測を可能に。
- 再構成、補間、予測タスクを横断するイベント→フレーム再構成の統一フレームワークを提供。
- 実データと合成データセットの定量・定性的性能を示す。
提案手法
- (encoded event representations に条件付けて、事前学習済みのビデオ拡散モデル(SVD)を微調整。
- 逆拡散中のフレーム間変化を制約するため、イベントベースのインターフレーム残差ガイダンスを導入。
- デノイズ済み潜在表現を勾配降下で更新する残差損失 L_residual を定式化し、潜在更新がデータマニフォールド内にとどまるようにする。
- 残差ガイダンスは拡散モデルのデータマニフォールドの接線空間で作用し、再構成誤差の境界を引き締めることを理論的に正当化。
- 先行フレーム(最初/最後)を用いて拡散スコアを逆拡散時に変調することで、ゼロショットのビデオフレーム補間と予測を拡張。
- prior-フレームのずれを取り入れることで中間フレーム再構成を導く逆拡散サンプリングアルゴリズムを提供。

実験結果
リサーチクエスチョン
- RQ1sparse なイベントデータで事前学習済みビデオ拡散モデルを効果的にガイドして高忠実度のフレームを再構成できるか。
- RQ2イベントベースのインターフレーム残差ガイダンスは再構成精度を改善し、拡散モデルのデータマニフォールド内で結果を維持できるか。
- RQ3利用可能な参照フレームを使って、ゼロショットのビデオフレーム補間と予測へ拡張できるか。
- RQ4この設定で残差ガイダンス付き拡散の安定性と品質を支える理論的根拠は何か。
主な発見
- UniE2F は実世界データと合成データセットの最先端の再構成品質を達成。実世界セットの MSE 0.0612、SSIM 0.4990、LPIPS 0.6740、合成データセットの MSE 0.0167、SSIM 0.7100、LPIPS 0.3940。
- グレースケールのようなイベント入力からカラフルなビデオを再構成でき、事前学習済みのビデオ拡散事前知識を活用。
- イベントベースのインターフレーム残差ガイダンスは、イベントデータから予測されるフレーム間変化とモデルが生成する変化を整列させることで再構成精度を向上。
- ゼロショット拡張によりVFIを4xおよび11x、VFPをタスク固有の訓練なしで実現。
- 再構成の待機時間は、448x320解像度で12RGBフレームを単一の RTX A6000 で生成するのに約48秒。
- 定性的結果は、 prior 法と比較してより自然な色味とアーチファクトが少ないことを示すが、イベントデータの固有色制限により色調差が残る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。