QUICK REVIEW

[논문 리뷰] Generating Long Videos of Dynamic Scenes

Tim Brooks, Janne Hellsten|arXiv (Cornell University)|2022. 06. 07.

Advanced Vision and Imaging인용 수 25

한 줄 요약

계속 시간을 우선시하는 계층적 제너레이터를 제안하여 현실적인 모션과 시간에 따른 새로운 콘텐츠를 갖는 긴 동영상을 생성하고, 긴 저해상도 시퀀스와 짧은 고해상도 시퀀스의 두 단계 학습을 사용합니다.

ABSTRACT

We present a video generation model that accurately reproduces object motion, changes in camera viewpoint, and new content that arises over time. Existing video generation methods often fail to produce new content as a function of time while maintaining consistencies expected in real environments, such as plausible dynamics and object persistence. A common failure case is for content to never change due to over-reliance on inductive biases to provide temporal consistency, such as a single latent code that dictates content for the entire video. On the other extreme, without long-term consistency, generated videos may morph unrealistically between different scenes. To address these limitations, we prioritize the time axis by redesigning the temporal latent representation and learning long-term consistency from data by training on longer videos. To this end, we leverage a two-phase training strategy, where we separately train using longer videos at a low resolution and shorter videos at a high resolution. To evaluate the capabilities of our model, we introduce two new benchmark datasets with explicit focus on long-term temporal dynamics.

연구 동기 및 목표

비디오 생성에서 장기적인 일관성과 콘텐츠의 출현 필요성을 고무한다.
장기 시간적 다이나믹스와 고해상도 디테일을 별도로 모델링하는 제너레이터 아키텍처를 개발한다.
실행 가능할 정도의 계산를 유지하면서 로우 해상도 긴 비디오에서 학습하여 긴 범위 의존성을 학습하도록 한다.
시간에 따른 장기 모션과 시점 변화, 새로운 콘텐츠를 강조하는 데이터셋을 도입한다.
장시간 지속 비디오의 현실성과 다이나믹스를 위한 평가 벤치마크와 분석을 제공한다.

제안 방법

저해상도 시간 생성기와 별도의 슈퍼 해상도 네트워크를 갖춘 두 단계의 계층적 제너레이터를 도입한다.
장기 다이나믹스를 모델링하기 위해 장기 범위 저역통과 필터 뱅크로 보강된 시간 잠재 표현을 사용한다.
저해상도 제너레이터를 긴 시퀀스(128 프레임)에서 64x36 해상도로 학습시켜 장기 일관성을 학습한다.
저해상도 프레임의 짧은 시퀀스에서 슈퍼 해상도 네트워크를 학습시켜 256x144(또는 그 이상) 출력을 생성한다.
저해상도 제너레이터와 슈퍼 해상도 네트워크 사이에 모듈식 RGB 병목을 사용하여 유연한 실험을 가능하게 한다.
FVD와 질적 평가를 사용하여 StyleGAN-V, MoCoGAN-HD, TATS, DIGAN과 비교하고 시간에 따른 색상 변화 다이나믹스를 분석한다.

실험 결과

연구 질문

RQ1비디오 제너레이터가 시간이 지남에 따라 새로운 콘텐츠를 도입하면서도 장기적 시간 일관성을 학습하고 유지할 수 있는가?
RQ2장기 범위 시간 잠재 표현을 통해 시간 축을 우선시하는 것이 프레임별 또는 짧은 클립 학습과 비교할 때 긴 동영상의 현실감을 향상시키는가?
RQ3긴 지속 비디오 생성을 위한 효과적인 학습 전략(저해상도에서의 긴 시퀀스)과 아키텍처 설계(시간적 업샘플링, 시공간 합성곱)는 무엇인가?
RQ4장기 다이나믹스를 갖는 새로 제안된 데이터셋이 비디오 생성 모델에 어떤 도전과 벤치마크를 제시하는가?
RQ5제안된 방법이 장기 지표(FVD)와 품질 평가 측면에서 기준 모델에 비해 어떤 성능을 보이는가?

주요 결과

제안된 모델은 시간이 지남에 따라 현실적인 움직임, 카메라 시점 변화 및 새로운 콘텐츠를 포함하는 비디오를 생성한다.
저해상도에서 긴 비디오를 학습하고 별도의 슈퍼해상도 단계로 긴 다이나믹스를 모델링하도록 하여 계산 비용을 합리적으로 유지한다.
긴 기간 다이나믹스를 가진 데이터셋에서 여러 기준선 대비 우수한 Fréchet 비디오 거리(FVD) 점수를 달성하고, 질적 사용자 연구에서도 제안 방법이 선호된다.
판별자 확장과 시간적 저통과로 보강된 잠재 표현은 학습 안정화 및 장기적 일관성을 가능하게 하는 데 중요하다.
어블레이션 결과는 더 긴 학습 시퀀스와 적절한 시간적 저역통과 포효가 긴 비디오의 현실감을 향상시킨다는 것을 보여준다.
새로운 데이터셋(mountain biking, horseback riding)은 장기 콘텐츠 출현과 동적인 카메라 모션을 보여주며 벤치마크 역할을 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.