QUICK REVIEW

[논문 리뷰] Generating Videos with Scene Dynamics

Carl Vondrick, Hamed Pirsiavash|arXiv (Cornell University)|2016. 09. 08.

Generative Adversarial Networks and Image Synthesis참고 문헌 34인용 수 848

한 줄 요약

이 논문은 두 흐름 GAN을 학습시켜 라벨이 없는 비디오로부터 짧고 64x64 컬러 비디오(32 프레임)를 생성하고, 전경 모션을 정지된 배경과 구분(disentangling)하여 모델링하며, 행동 인식에 유용한 비지도 표현을 보여준다.

ABSTRACT

We capitalize on large amounts of unlabeled video in order to learn a model of scene dynamics for both video recognition tasks (e.g. action classification) and video generation tasks (e.g. future prediction). We propose a generative adversarial network for video with a spatio-temporal convolutional architecture that untangles the scene's foreground from the background. Experiments suggest this model can generate tiny videos up to a second at full frame rate better than simple baselines, and we show its utility at predicting plausible futures of static images. Moreover, experiments and visualizations show the model internally learns useful features for recognizing actions with minimal supervision, suggesting scene dynamics are a promising signal for representation learning. We believe generative video models can impact many applications in video understanding and simulation.

연구 동기 및 목표

대규모 라벨링되지 않은 비디오를 활용해 인식 및 생성 작업을 위한 장면 다이나믹스를 학습한다.
잠재 코드로부터 그럴듯한 짧은 비디오를 생성할 수 있는 생성적 비디오 모델을 개발한다.
전경 모션을 정지된 배경에서 구분해 다이나믹스를 더 잘 모델링한다.
최소한의 감독으로 행동 분류를 위한 학습 표현의 유용성을 입증한다.

제안 방법

비주얼과 시공간 아키텍처를 갖춘 비디오용 생성적 적대 신경망(GAN)을 제안한다.
정적 배경을 강제하는 두 가지 아키텍처를 도입한다: 하나의 스트림 생성기와 시공간 마스크 m(z)에 의해 정적 배경과 움직이는 전경을 강제하는 두 스트림 생성기.
시간 모델링을 위한 3D 컨볼루션과 업샘플링을 위한 Fractionally- strides 컨볼루션을 사용해 32프레임 비디오를 64x64 해상도로 생성한다.
현실성 및 모션 일관성을 평가할 수 있는 5층 시공간 CNN으로 판별기를 학습시킨다.
대규모 라벨링되지 않은 비디오(2M 클립, 5k+ 시간)를 전처리하고 배경 모션을 안정화해 객체 다이나믹스에 집중한다.
생성 비디오의 현실감이 높은지 비교하는 심리물리학 연구(MTurk)와 행동 인식을 위한 다운스트림 비지도 표현 학습으로 평가한다.

실험 결과

연구 질문

RQ1라벨링되지 않은 비디오를 사용해 생성 및 인식을 위한 강건한 장면 다이나믹스를 학습할 수 있는가?
RQ2전경/배경 이중 스트림 생성기가 단일 스트림보다 더 현실적인 모션을 생성하는가?
RQ3판별기로부터 학습된 표현이 제한된 라벨 데이터로 행동 인식에 유용한가?
RQ4정적 이미지나 장면의 그럴듯한 미래를 생성할 수 있는가?
RQ5기저선 대비 생성된 비디오의 지각적 품질은 어떠한가?

주요 결과

	골프	해변	기차역	아기	평균
Random Preference	50	50	50	50	50
Prefer VGAN Two Stream over Autoencoder	88	83	87	71	82
Prefer VGAN One Stream over Autoencoder	85	88	85	73	82
Prefer VGAN Two Stream over VGAN One Stream	55	58	47	52	53
Prefer VGAN Two Stream over Real	21	23	23	6	18
Prefer VGAN One Stream over Real	17	21	19	8	16
Prefer Autoencoder over Real	4	2	4	2	3

GAN 기반의 비디오 생성은 해변, 골프 코스, 기차역 등 장면 범주에 대해 그럴듯한 짧은 모션을 생성한다.
인간 심사위원은 대부분의 장면에서 이중 스트림 VGAN 생성이 단일 스트림 및 오토인코더 기반의 기초선보다 더 현실적 모션을 보였다고 평가한다.
오토인코더 기초선은 일반적으로 VGAN 접근법보다 선호도가 낮다.
이중 스트림 모델은 배경이 큰 장면에서 더 잘 처리해 배경 플리커를 단일 스트림 모델에 비해 감소시킨다.
비지도 VGAN 표현은 제한된 라벨 데이터를 사용한 파인튜닝 시 행동 분류를 개선하며, 유사한 데이터에서 무작위 초기화에 근접하거나 이를 능가하고 일부 수작업으로 만든 기초선보다 낫다.
단일 이미지에서의 미래 생성은 그럴듯한 모션 경로를 생성할 수 있으나 콘텐츠의 정확성은 항상 맞지 않는 경우가 많다; 네트워크는 모션 관련 객체 반응을 학습한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.