QUICK REVIEW

[논문 리뷰] VideoFlow: A Conditional Flow-Based Model for Stochastic Video Generation

M. N. Anil Kumar, Mohammad Babaeizadeh|arXiv (Cornell University)|2019. 03. 04.

Generative Adversarial Networks and Image Synthesis참고 문헌 50인용 수 34

한 줄 요약

VideoFlow는 잠재 역학을 학습하고 자기회귀 선행 모델을 사용하여 조건부 비디오 예측으로 흐름 기반 생성 모델을 확장함으로써 정확한 가능도, 다양한 미래, 그리고 픽셀 수준 자기회귀 방법보다 빠른 합성을 가능하게 한다.

ABSTRACT

Generative models that can model and predict sequences of future events can, in principle, learn to capture complex real-world phenomena, such as physical interactions. However, a central challenge in video prediction is that the future is highly uncertain: a sequence of past observations of events can imply many possible futures. Although a number of recent works have studied probabilistic models that can represent uncertain futures, such models are either extremely expensive computationally as in the case of pixel-level autoregressive models, or do not directly optimize the likelihood of the data. To our knowledge, our work is the first to propose multi-frame video prediction with normalizing flows, which allows for direct optimization of the data likelihood, and produces high-quality stochastic predictions. We describe an approach for modeling the latent space dynamics, and demonstrate that flow-based generative models offer a viable and competitive approach to generative modelling of video.

연구 동기 및 목표

현실 세계의 미래가 본질적으로 불확실한 시퀀스에서 확률적 비디오 예측의 동기를 부여한다.
데이터 가능도를 직접 최적화하는 조건부, 흐름 기반의 비디오 모델을 제안한다.
잠재 공간의 시간적 역학을 모델링하여 프레임당 흐름의 역가능성을 유지하면서 여러 그럴듯한 미래를 포착한다.
표준 벤치마크에서 최첨단 VAE 기반 접근법과 경쟁하거나 우수한 성능을 입증한다.
정확한 가능도에 의한 합성 속도와 평가에서의 실용적 이점을 강조한다.

제안 방법

각 비디오 프레임 x_t를 가역적 다중 규모 흐름으로 매핑하여 가적 Jacobian 행렬식이 가능한 잠재 z_t로 매핑한다.
잠재 공간을 프레임별 및 다중 규모 구성요소 z_t = {z_t^(l)} for l=1..L로 분해한다.
p(z) = ∏_t p(z_t | z_{<t})를 가지는 자기회귀 잠재 역학 사전(prior)을 학습하고, 각 레벨의 조건부 p(z_t^(l) | z_{<t}^(l), z_t^(>l))를 평균/분산이 깊은 NN에 의해 예측되는 가우시안으로 모델링한다.
3-D 잔차 네트워크를 사용하여 dilations와 게이트 활성화를 갖는 z_t^(l)의 평균 및 로그 스케일을 예측한다.
가역 연산들(ActNorm, Coupling, SoftPermute, Squeeze)을 활용하여 계산 가능한 로그 가능도와 빠른 병렬 샘플링을 가능하게 한다.
Fréchet Video Distance(FVD)와 인간 판단 기반 메트릭을 사용하고 BAIR와 확률적 움직임 데이터셋에서 SAVP-VAE, SV2P, SVG-LP와 비교 평가를 수행한다.

실험 결과

연구 질문

RQ1과거 프레임에 조건화된 흐름 기반 모델이 직접 로그 가능도 최적화를 통해 확률적 미래를 포착할 수 있는가?
RQ2자기회귀 잠재 사전이 픽셀 수준 자기회귀에 의존하지 않고도 현실적이고 다양한 비디오 생성을 가능하게 하는가?
RQ3표준 데이터셋에서 가능도 기반 평가와 지각적 품질 측면에서 VideoFlow가 최첨단 VAE 기반 확률적 비디오 예측 모델에 비해 어떤 성능을 보이는가?

주요 결과

실험/데이터셋	모델	지표	값
Stochastic Movement Dataset	VideoFlow	Fooling rate (2AFC MTurk)	31.8%
Stochastic Movement Dataset	SAVP-VAE	Fooling rate (2AFC MTurk)	16.4%
Stochastic Movement Dataset	SV2P	Fooling rate (2AFC MTurk)	17.5%
BAIR action-free	VideoFlow	Bits-per-pixel	1.87
BAIR action-free	SAVP-VAE	Bits-per-pixel	≤6.73
BAIR action-free	SV2P	Bits-per-pixel	≤6.78
BAIR action-free	VideoFlow	FVD (T=0.8)	95 ± 4
BAIR action-free	VideoFlow	FVD (T=0.8)	127 ± 3
BAIR action-free	VideoFlow	FVD (T=0.8)	131 ± 5
BAIR action-free	VideoFlow	FVD (T=1.0)	149 ± 6
BAIR action-free	VideoFlow	FVD (T=1.0)	221 ± 8
BAIR action-free	VideoFlow	FVD (T=1.0)	251 ± 7
BAIR action-free	SAVP	FVD	-
BAIR action-free	SV2P	FVD	263

VideoFlow는 BAIR 무동적 데이터셋에서 비트당 픽셀(BPP) 점수 1.87로 경쟁력 있는 확률적 비디오 예측 성능을 달성하여 여러 VAE 기반 기준선을 능가한다.
휴먼 판단(2AFC Mechanical Turk)에서 VideoFlow가 SAVP-VAE와 SV2P보다 더 높은 속임 비율을 보이며 미래 궤적의 현실성을 시사한다.
확률적 움직임 데이터셋에서 VideoFlow의 속임 비율은 31.8%로 SAVP-VAE(16.4%), SV2P(17.5%)보다 높다.
VideoFlow는 픽셀 수준의 자기회귀 비디오 모델보다 합성이 빠르며 NVIDIA P100 GPU에서 64x64 20프레임 비디오를 3.5초 이내에 생성한다.
모델은 로그 가능도를 직접 최적화하므로 변분 하한이나 적대적 학습이 필요 없고, 일반적인 흐림 artifacts 없이 선명하고 다양한 미래를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.