Skip to main content
QUICK REVIEW

[논문 리뷰] Flexible Diffusion Modeling of Long Videos

William R. Harvey, Saeid Naderiparizi|arXiv (Cornell University)|2022. 05. 23.
Generative Adversarial Networks and Image Synthesis인용 수 102
한 줄 요약

요약: Flexible Diffusion Model(FDM)을 소개하는 논문으로, 어떤 서브셋의 프레임을 다른 서브셋에 조건부로 샘플링할 수 있는 DDPM 기반 프레임워크를 제시하여 긴 비디오 생성/완성과 데이터셋별 샘플링 스킴의 최적화를 가능하게 하며, CARLA Town01 데이터셋을 공개합니다.

ABSTRACT

We present a framework for video modeling based on denoising diffusion probabilistic models that produces long-duration video completions in a variety of realistic environments. We introduce a generative model that can at test-time sample any arbitrary subset of video frames conditioned on any other subset and present an architecture adapted for this purpose. Doing so allows us to efficiently compare and optimize a variety of schedules for the order in which frames in a long video are sampled and use selective sparse and long-range conditioning on previously sampled frames. We demonstrate improved video modeling over prior work on a number of datasets and sample temporally coherent videos over 25 minutes in length. We additionally release a new video modeling dataset and semantically meaningful metrics based on videos generated in the CARLA autonomous driving simulator.

연구 동기 및 목표

  • 일관되고 사진실사 같은 긴 영상 생성을 짧은 시퀀스를 넘어서 달성하는 도전 과제를 다룬다.
  • 고정된 계산 예산 K 하에서 과거/미래 프레임의 임의 부분집합에 대해 조건화하고 주변화할 수 있는 DDPM 기반 모델을 개발한다.
  • 계산 자원과 영상 품질 사이의 균형을 맞추기 위해 샘플링 스킴을 탐색하고 최적화한다.
  • 새로운 자율주행 비디오 데이터셋(CARLA Town01)과 비디오 모델링을 위한 의미론 기반 평가 지표를 소개한다.

제안 방법

  • DDPM 기반 이미지 아키텍처를 시간적 어텐션과 새로운 상대 프레임 위치 인코딩으로 확장한다.
  • 고정된 계산 예산 K에서 임의의 과거/미래 프레임 수를 조건화하는 메타러닝 목적을 가진 조건부 DDPM을 학습한다.
  • 잠재 프레임 인덱스와 관찰 프레임 인덱스에 대한 광범위한 훈련 작업 분포 u(X, Y)을 정의하여 가변 프레드셋에서의 유연한 조건화 학습을 가능하게 한다.
  • 비디오를 4차원 텐서로 표현하고 시간적/공간적 어텐션이 있는 4-D U-네트로 정보를 프레임 간에 전파하도록 한다.
  • 고정된 배치 크기에서 가변 길이의 조건화를 효율적으로 처리하기 위해 트레이닝 배치 패딩으로 트레이닝을 구현한다.
  • 여러 가지 테스트 타임 샘플링 스킴(오토리그레시브, 롱-레인지, 계층 변형)을 제공하고 확산 손실을 최소화하도록 조건화 프레프를 선택하는 최적화 절차를 제시한다.

실험 결과

연구 질문

  • RQ1테스트 시점에 임의의 프레임 부분집합에 대해 확산 기반 비디오 모델을 어떻게 조건화할 수 있는가?
  • RQ2단일 모델이 다양한 조건화 작업을 처리하고 계산 제약 하에서 여전히 고품질의 긴 비디오를 제공할 수 있는가?
  • RQ3데이터셋별로 비디오 충실도와 일관성 사이의 최적 트레이드오프를 제공하는 샘플링 스킴은 무엇인가?
  • RQ4테스트 시점에 조건화 전략을 최적화하는 것이 고정된 스킴에 비해 정량적 비디오 모델링 지표를 개선하는가?
  • RQ5운전 시뮬레이션 환경에서 생성된 긴 비디오를 평가하는 의미론 주도 지표는 무엇인가?

주요 결과

모델샘플링 방식FVD (GQN-Mazes)정확도 (MineRL)FVD (CARLA Town01)WD (CARLA Town01)OP (CARLA Town01)
CWVAECWVAE837±882.6±0.51573±511610.66644.4
TATSTATS163±2.677.0±0.8807±143291.64842.4
VDMVDM66.7±1.577.8±0.5271±8.81690.50116.9
FDM AutoregAutoreg86.4±5.269.6±1.3281±102220.5790.51
Long-rangeLong-range64.5±1.977.0±1.4267±4.02130.6530.47
Hierarchy-2Hier.253.1±1.182.8±0.7275±7.71200.3183.28
Hierarchy-3Hier.353.7±1.983.8±1.1311±6.81490.3634.53
Ad. hierarchy-2Adaptive Hier-255.0±1.483.2±1.3316±8.91170.3113.44
  • FDM은 임의의 프레임 하위집합에 조건화된 긴 비디오를 샘플링할 수 있어 여러 데이터셋에서 최대 25분까지의 비디오를 다룰 수 있다.
  • 다양한 샘플링 스킴(오토레그레이시브, 롱-레이즈, 계층 변형)은 데이터셋 의존적인 성능을 보이며, 계층적 스킴은 일부 작업에서 FVD를 개선하는 반면 다른 작업에서는 오토레그레이시브가 우수한 경우가 있다.
  • 오프라인 스킴 최적화(Opt. autoreg, Opt. hierarchy-2)로 조건화 프레임을 최적화하면 여러 데이터셋에서 FVD 및 관련 지표가 개선된다.
  • 기준선(CWVAE, TATS, VDM)과 비교하면 데이터셋과 스킴에 따라 FVD가 더 낮거나 정확도가 더 높은 경우가 있으며 재학습 없이 테스트 타임에 스킴을 탐색할 수 있는 유연성을 제공한다.
  • 새로운 CARLA Town01 비디오 데이터셋이 공개되며 의미론 지향 평가(이상치 비율, Wasserstein 거리)를 통해 긴 비디오의 현실성 및 의미론적 일관성을 평가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.