QUICK REVIEW

[논문 리뷰] Flexible Diffusion Modeling of Long Videos

William R. Harvey, Saeid Naderiparizi|arXiv (Cornell University)|2022. 05. 23.

Generative Adversarial Networks and Image Synthesis인용 수 102

한 줄 요약

요약: Flexible Diffusion Model(FDM)을 소개하는 논문으로, 어떤 서브셋의 프레임을 다른 서브셋에 조건부로 샘플링할 수 있는 DDPM 기반 프레임워크를 제시하여 긴 비디오 생성/완성과 데이터셋별 샘플링 스킴의 최적화를 가능하게 하며, CARLA Town01 데이터셋을 공개합니다.

ABSTRACT

We present a framework for video modeling based on denoising diffusion probabilistic models that produces long-duration video completions in a variety of realistic environments. We introduce a generative model that can at test-time sample any arbitrary subset of video frames conditioned on any other subset and present an architecture adapted for this purpose. Doing so allows us to efficiently compare and optimize a variety of schedules for the order in which frames in a long video are sampled and use selective sparse and long-range conditioning on previously sampled frames. We demonstrate improved video modeling over prior work on a number of datasets and sample temporally coherent videos over 25 minutes in length. We additionally release a new video modeling dataset and semantically meaningful metrics based on videos generated in the CARLA autonomous driving simulator.

연구 동기 및 목표

일관되고 사진실사 같은 긴 영상 생성을 짧은 시퀀스를 넘어서 달성하는 도전 과제를 다룬다.
고정된 계산 예산 K 하에서 과거/미래 프레임의 임의 부분집합에 대해 조건화하고 주변화할 수 있는 DDPM 기반 모델을 개발한다.
계산 자원과 영상 품질 사이의 균형을 맞추기 위해 샘플링 스킴을 탐색하고 최적화한다.
새로운 자율주행 비디오 데이터셋(CARLA Town01)과 비디오 모델링을 위한 의미론 기반 평가 지표를 소개한다.

제안 방법

DDPM 기반 이미지 아키텍처를 시간적 어텐션과 새로운 상대 프레임 위치 인코딩으로 확장한다.
고정된 계산 예산 K에서 임의의 과거/미래 프레임 수를 조건화하는 메타러닝 목적을 가진 조건부 DDPM을 학습한다.
잠재 프레임 인덱스와 관찰 프레임 인덱스에 대한 광범위한 훈련 작업 분포 u(X, Y)을 정의하여 가변 프레드셋에서의 유연한 조건화 학습을 가능하게 한다.
비디오를 4차원 텐서로 표현하고 시간적/공간적 어텐션이 있는 4-D U-네트로 정보를 프레임 간에 전파하도록 한다.
고정된 배치 크기에서 가변 길이의 조건화를 효율적으로 처리하기 위해 트레이닝 배치 패딩으로 트레이닝을 구현한다.
여러 가지 테스트 타임 샘플링 스킴(오토리그레시브, 롱-레인지, 계층 변형)을 제공하고 확산 손실을 최소화하도록 조건화 프레프를 선택하는 최적화 절차를 제시한다.

실험 결과

연구 질문

RQ1테스트 시점에 임의의 프레임 부분집합에 대해 확산 기반 비디오 모델을 어떻게 조건화할 수 있는가?
RQ2단일 모델이 다양한 조건화 작업을 처리하고 계산 제약 하에서 여전히 고품질의 긴 비디오를 제공할 수 있는가?
RQ3데이터셋별로 비디오 충실도와 일관성 사이의 최적 트레이드오프를 제공하는 샘플링 스킴은 무엇인가?
RQ4테스트 시점에 조건화 전략을 최적화하는 것이 고정된 스킴에 비해 정량적 비디오 모델링 지표를 개선하는가?
RQ5운전 시뮬레이션 환경에서 생성된 긴 비디오를 평가하는 의미론 주도 지표는 무엇인가?

주요 결과

모델	샘플링 방식	FVD (GQN-Mazes)	정확도 (MineRL)	FVD (CARLA Town01)	WD (CARLA Town01)	OP (CARLA Town01)
CWVAE	CWVAE	837±8	82.6±0.5	1573±5	1161	0.666	44.4
TATS	TATS	163±2.6	77.0±0.8	807±14	329	1.648	42.4
VDM	VDM	66.7±1.5	77.8±0.5	271±8.8	169	0.501	16.9
FDM Autoreg	Autoreg	86.4±5.2	69.6±1.3	281±10	222	0.579	0.51
Long-range	Long-range	64.5±1.9	77.0±1.4	267±4.0	213	0.653	0.47
Hierarchy-2	Hier.2	53.1±1.1	82.8±0.7	275±7.7	120	0.318	3.28
Hierarchy-3	Hier.3	53.7±1.9	83.8±1.1	311±6.8	149	0.363	4.53
Ad. hierarchy-2	Adaptive Hier-2	55.0±1.4	83.2±1.3	316±8.9	117	0.311	3.44

FDM은 임의의 프레임 하위집합에 조건화된 긴 비디오를 샘플링할 수 있어 여러 데이터셋에서 최대 25분까지의 비디오를 다룰 수 있다.
다양한 샘플링 스킴(오토레그레이시브, 롱-레이즈, 계층 변형)은 데이터셋 의존적인 성능을 보이며, 계층적 스킴은 일부 작업에서 FVD를 개선하는 반면 다른 작업에서는 오토레그레이시브가 우수한 경우가 있다.
오프라인 스킴 최적화(Opt. autoreg, Opt. hierarchy-2)로 조건화 프레임을 최적화하면 여러 데이터셋에서 FVD 및 관련 지표가 개선된다.
기준선(CWVAE, TATS, VDM)과 비교하면 데이터셋과 스킴에 따라 FVD가 더 낮거나 정확도가 더 높은 경우가 있으며 재학습 없이 테스트 타임에 스킴을 탐색할 수 있는 유연성을 제공한다.
새로운 CARLA Town01 비디오 데이터셋이 공개되며 의미론 지향 평가(이상치 비율, Wasserstein 거리)를 통해 긴 비디오의 현실성 및 의미론적 일관성을 평가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.