Skip to main content
QUICK REVIEW

[논문 리뷰] UniE2F: A Unified Diffusion Framework for Event-to-Frame Reconstruction with Video Foundation Models

Gang Xu, Zhiyu Zhu|arXiv (Cornell University)|2026. 02. 22.
Advanced Memory and Neural Computing인용 수 0
한 줄 요약

UniE2F는 희소 이벤트 데이터를 이용한 사전 학습된 비디오 확산 모델을 통해 고충실도 프레임을 재구성하며, 프레임 간 보간 및 예측에 대한 제로샷 확장으로 작동합니다. 이벤트 기반 inter-frame 잔여 가이던스를 도입하고 이벤트 표현에 대해 미세조정합니다.

ABSTRACT

Event cameras excel at high-speed, low-power, and high-dynamic-range scene perception. However, as they fundamentally record only relative intensity changes rather than absolute intensity, the resulting data streams suffer from a significant loss of spatial information and static texture details. In this paper, we address this limitation by leveraging the generative prior of a pre-trained video diffusion model to reconstruct high-fidelity video frames from sparse event data. Specifically, we first establish a baseline model by directly applying event data as a condition to synthesize videos. Then, based on the physical correlation between the event stream and video frames, we further introduce the event-based inter-frame residual guidance to enhance the accuracy of video frame reconstruction. Furthermore, we extend our method to video frame interpolation and prediction in a zero-shot manner by modulating the reverse diffusion sampling process, thereby creating a unified event-to-frame reconstruction framework. Experimental results on real-world and synthetic datasets demonstrate that our method significantly outperforms previous approaches both quantitatively and qualitatively. We also refer the reviewers to the video demo contained in the supplementary material for video results. The code will be publicly available at https://github.com/CS-GangXu/UniE2F.

연구 동기 및 목표

  • 희소 이벤트 데이터와 풍부한 비디오 텍스처를 사전 학습된 비디오 확산 모델로 연결한다.
  • 프레임 fidelity를 개선하기 위한 이벤트 기반 inter-frame 잔여 가이던스를 도입한다.
  • 역 확산 과정에서의 프레임 간 차이를 제약하기 위해 잔여 가이던스를 사용하여 제로샷으로 비디오 프레임 간 보간(interpolation) 및 예측을 가능하게 한다.
  • 재구성, 보간 및 예측 작업 전반에 걸친 이벤트-프레임 재구성을 위한 통합 프레임워크를 제공한다.
  • 실제 및 합성 데이터셋에서 강력한 정량적·정성적 성능을 입증한다.

제안 방법

  • 인코딩된 이벤트 표현으로 조건화된 사전 학습된 비디오 확산 모델(SVD)을 미세조정한다.
  • 역 확산 동안 inter-frame 차이를 제한하기 위해 이벤트 기반 inter-frame 잔여 가이던스를 도입한다.
  • 데이터 매니폴드 내의 잠재 표현 업데이트를 보장하도록 잔여 손실 L_residual를 그래디언트 하강으로 업데이트하는 잔여 손실를 형식화한다.
  • 잔여 가이던스가 확산 모델의 데이터 매니폴드의 접선 공간에서 작동하고 재구성 오차 한계를 단단하게 만든다는 이론적 근거를 제시한다.
  • 역 샘플링 동안 이전 프레임(처음/마지막)을 사용해 확산 점수에 모듈레이션을 적용하여 제로샷으로 비디오 프레임 보간(VFI)과 예측(VFP)을 확장한다.
  • 이전 프레임 편차를 포함하는 역 확산 샘플링 알고리즘을 제공하여 중간 프레임 재구성을 안내한다.
Figure 1 : Illustration of the forward and backward diffusion processes for our UniE2F under the conditional event data. The right and left parts indicate the inputs and results of our algorithm, while in the central plot, the solid and dashed lines with the same color represent the reverse-time sam
Figure 1 : Illustration of the forward and backward diffusion processes for our UniE2F under the conditional event data. The right and left parts indicate the inputs and results of our algorithm, while in the central plot, the solid and dashed lines with the same color represent the reverse-time sam

실험 결과

연구 질문

  • RQ1희소 이벤트 데이터로도 사전 학습된 비디오 확산 모델을 효과적으로 가이던할 수 있는가?
  • RQ2이벤트 기반 inter-frame 잔여 가이던스가 재구성 정확도를 높이고 확산 모델의 데이터 매니폴드 내 결과를 유지하게 하는가?
  • RQ3주어진 참조 프레임을 활용하여 프레임 보간 및 예측을 제로샷으로 프레임워크에 확장할 수 있는가?
  • RQ4이 설정에서 잔여 가이던스 확산의 안정성과 품질을 지지하는 이론적 근거는 무엇인가?

주요 결과

  • UniE2F는 실제 및 합성 데이터셋에서 최첨단 재구성 품질을 달성하며, 실제 데이터셋에서의 MSE 0.0612, SSIM 0.4990, LPIPS 0.6740 및 합성 데이터에서의 MSE 0.0167, SSIM 0.7100, LPIPS 0.3940을 보인다.
  • 전처리된 비디오 확산 사전 지식을 활용하여 회색조와 유사한 이벤트 입력에서도 색상이 풍부한 비디오를 재구성할 수 있다.
  • 이벤트 기반 inter-frame 잔여 가이던스는 이벤트 데이터에서 예측되는 프레임 간 변화와 모델이 생성하는 변화 간의 정렬을 통해 재구성 정확도를 향상시킨다.
  • 제로샷 확장은 특정 작업 학습 없이도 4x 및 11x의 비디오 프레임 보간(VFI)과 비디오 프레임 예측(VFP)을 가능하게 한다.
  • 하나의 RTX A6000에서 12개의 RGB 프레임을 448x320 해상도로 생성하는 재구성 지연은 약 48초이다.
  • 정성적 결과는 이전 방법에 비해 더 자연스러운 색상과 적은 아티팩트를 보여주지만 이벤트 데이터의 고유 색상 제한으로 인해 색조 차이는 남아 있다.
Figure 2 : The schematic of the proposed framework, which integrates event-based inter-frame residual guidance during the inference stage. At step $t$ ( $t\leq\tau$ ), given event representations, we utilize a ResNet to predict the inter-frame residuals between consecutive frames. Then, these residu
Figure 2 : The schematic of the proposed framework, which integrates event-based inter-frame residual guidance during the inference stage. At step $t$ ( $t\leq\tau$ ), given event representations, we utilize a ResNet to predict the inter-frame residuals between consecutive frames. Then, these residu

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.