QUICK REVIEW

[논문 리뷰] VideoFlow: A Conditional Flow-Based Model for Stochastic Video Generation

M. N. Anil Kumar, Mohammad Babaeizadeh|arXiv (Cornell University)|2019. 03. 04.

Video Analysis and Summarization참고 문헌 57인용 수 76

한 줄 요약

VideoFlow는 흐름 기반 생성 모델을 조건부 비디오 예측으로 확장하여 정확한 가능도 최적화, 다양한 확률적 미래, 그리고 autoregressive 비디오 모델보다 더 빠른 프레임 합성을 가능하게 한다.

ABSTRACT

Generative models that can model and predict sequences of future events can, in principle, learn to capture complex real-world phenomena, such as physical interactions. However, a central challenge in video prediction is that the future is highly uncertain: a sequence of past observations of events can imply many possible futures. Although a number of recent works have studied probabilistic models that can represent uncertain futures, such models are either extremely expensive computationally as in the case of pixel-level autoregressive models, or do not directly optimize the likelihood of the data. To our knowledge, our work is the first to propose multi-frame video prediction with normalizing flows, which allows for direct optimization of the data likelihood, and produces high-quality stochastic predictions. We describe an approach for modeling the latent space dynamics, and demonstrate that flow-based generative models offer a viable and competitive approach to generative modelling of video.

연구 동기 및 목표

여러 미래가 가능한 확률적 비디오 예측을 동기로 삼는다.
과거 프레임에 조건을 두고 미래 프레임을 합성하기 위한 흐름 기반 모델을 제안한다.
잠재 다이나믹 시스템을 도입하여 흐름의 잠재 상태의 시간적 진화를 모델링한다.
비디오 생성을 위한 정확한 로그 가능도 평가를 가능하게 하여 적대적 학습 아티팩트를 피한다.

제안 방법

프레임 x_t를 프레임당 잠재 변수 z_t^(l)로 매핑하는 다중 스케일 가역 흐름을 사용한다.
시간에 걸친 모든 z_t^(l)에 대해 p(z)를 autoregressive로 모델링하여 시간적 다이내믹스를 포착한다.
플로우-기반 생성기를 과거 프레임에 조건시키되 잠재 다이나믹스는 시간적으로 자기회귀적으로 유지한다.
시간적 아티팩트를 피하고 더 긴 시퀀스를 가능하게 하기 위해 2-D 합성곱과 autoregressive priors를 활용한다.
다양성과 사실감을 맞바꾸는 샘플링 온도를 선택적으로 조정한다.

실험 결과

연구 질문

RQ1Conditional flow-based 모델이 정확한 가능도 최적화로 고품질의 확률적 비디오 예측을 생성할 수 있는가?
RQ2VideoFlow가 현실감, 다양성, 샘플링 속도 면에서 VAE- 및 autoregressive 기반 비디오 예측 방법과 어떻게 비교되는가?
RQ3autoregressive 잠재 다이나믹스 선험이 비싼 3-D 합성 없이도 일관된 다프레임 비디오 생성을 가능하게 하는가?
RQ4모델이 occlusion 아래에서도 시간적 일관성을 유지하며 더 긴 수평 예측을 생성할 수 있는가?

주요 결과

VideoFlow는 BAIR에서 경쟁력 있는 확률적 비디오 예측 결과를 제공하며 VAE 기반 최첨단 모델에 근접한다.
Stochastic Movement Dataset에서 VideoFlow는 SAVP-VAE(16.4%)와 SV2P(17.5%)를 상회하는 더 높은 실제-가짜 속임률(31.8%)을 달성했다.
VideoFlow는 픽셀 수준의 autoregressive 모델보다 테스트 시간 합성을 더 빠르게 수행한다(예: NVIDIA P100에서 64x64x20 프레임을 3.5초 미만).
모델은 직접 로그 가능도를 최적화하여 adversarial training artifacts를 피하고 로그 가능도로 직접 평가할 수 있게 한다.
VideoFlow는 BAIR 무동작 데이터에서 더 나은 Bits-Per-Pixel(1.87)을 달성하여 여러 베이스라인보다 강한 가능도 기반 모델링을 시사한다.
BAIR에서 잠재 공간 보간은 시간적으로 응집된 모션을 보여주며 서로 다른 수준에서 서로 다른 스케일의 모션을 포착한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.