Skip to main content
QUICK REVIEW

[논문 리뷰] VideoFlow: A Conditional Flow-Based Model for Stochastic Video Generation

M. N. Anil Kumar, Mohammad Babaeizadeh|arXiv (Cornell University)|2019. 03. 04.
Video Analysis and Summarization참고 문헌 57인용 수 76
한 줄 요약

VideoFlow는 흐름 기반 생성 모델을 조건부 비디오 예측으로 확장하여 정확한 가능도 최적화, 다양한 확률적 미래, 그리고 autoregressive 비디오 모델보다 더 빠른 프레임 합성을 가능하게 한다.

ABSTRACT

Generative models that can model and predict sequences of future events can, in principle, learn to capture complex real-world phenomena, such as physical interactions. However, a central challenge in video prediction is that the future is highly uncertain: a sequence of past observations of events can imply many possible futures. Although a number of recent works have studied probabilistic models that can represent uncertain futures, such models are either extremely expensive computationally as in the case of pixel-level autoregressive models, or do not directly optimize the likelihood of the data. To our knowledge, our work is the first to propose multi-frame video prediction with normalizing flows, which allows for direct optimization of the data likelihood, and produces high-quality stochastic predictions. We describe an approach for modeling the latent space dynamics, and demonstrate that flow-based generative models offer a viable and competitive approach to generative modelling of video.

연구 동기 및 목표

  • 여러 미래가 가능한 확률적 비디오 예측을 동기로 삼는다.
  • 과거 프레임에 조건을 두고 미래 프레임을 합성하기 위한 흐름 기반 모델을 제안한다.
  • 잠재 다이나믹 시스템을 도입하여 흐름의 잠재 상태의 시간적 진화를 모델링한다.
  • 비디오 생성을 위한 정확한 로그 가능도 평가를 가능하게 하여 적대적 학습 아티팩트를 피한다.

제안 방법

  • 프레임 x_t를 프레임당 잠재 변수 z_t^(l)로 매핑하는 다중 스케일 가역 흐름을 사용한다.
  • 시간에 걸친 모든 z_t^(l)에 대해 p(z)를 autoregressive로 모델링하여 시간적 다이내믹스를 포착한다.
  • 플로우-기반 생성기를 과거 프레임에 조건시키되 잠재 다이나믹스는 시간적으로 자기회귀적으로 유지한다.
  • 시간적 아티팩트를 피하고 더 긴 시퀀스를 가능하게 하기 위해 2-D 합성곱과 autoregressive priors를 활용한다.
  • 다양성과 사실감을 맞바꾸는 샘플링 온도를 선택적으로 조정한다.

실험 결과

연구 질문

  • RQ1Conditional flow-based 모델이 정확한 가능도 최적화로 고품질의 확률적 비디오 예측을 생성할 수 있는가?
  • RQ2VideoFlow가 현실감, 다양성, 샘플링 속도 면에서 VAE- 및 autoregressive 기반 비디오 예측 방법과 어떻게 비교되는가?
  • RQ3autoregressive 잠재 다이나믹스 선험이 비싼 3-D 합성 없이도 일관된 다프레임 비디오 생성을 가능하게 하는가?
  • RQ4모델이 occlusion 아래에서도 시간적 일관성을 유지하며 더 긴 수평 예측을 생성할 수 있는가?

주요 결과

  • VideoFlow는 BAIR에서 경쟁력 있는 확률적 비디오 예측 결과를 제공하며 VAE 기반 최첨단 모델에 근접한다.
  • Stochastic Movement Dataset에서 VideoFlow는 SAVP-VAE(16.4%)와 SV2P(17.5%)를 상회하는 더 높은 실제-가짜 속임률(31.8%)을 달성했다.
  • VideoFlow는 픽셀 수준의 autoregressive 모델보다 테스트 시간 합성을 더 빠르게 수행한다(예: NVIDIA P100에서 64x64x20 프레임을 3.5초 미만).
  • 모델은 직접 로그 가능도를 최적화하여 adversarial training artifacts를 피하고 로그 가능도로 직접 평가할 수 있게 한다.
  • VideoFlow는 BAIR 무동작 데이터에서 더 나은 Bits-Per-Pixel(1.87)을 달성하여 여러 베이스라인보다 강한 가능도 기반 모델링을 시사한다.
  • BAIR에서 잠재 공간 보간은 시간적으로 응집된 모션을 보여주며 서로 다른 수준에서 서로 다른 스케일의 모션을 포착한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.