Skip to main content
QUICK REVIEW

[논문 리뷰] Generating Long Videos of Dynamic Scenes

Tim Brooks, Janne Hellsten|arXiv (Cornell University)|2022. 06. 07.
Advanced Vision and Imaging인용 수 25
한 줄 요약

계속 시간을 우선시하는 계층적 제너레이터를 제안하여 현실적인 모션과 시간에 따른 새로운 콘텐츠를 갖는 긴 동영상을 생성하고, 긴 저해상도 시퀀스와 짧은 고해상도 시퀀스의 두 단계 학습을 사용합니다.

ABSTRACT

We present a video generation model that accurately reproduces object motion, changes in camera viewpoint, and new content that arises over time. Existing video generation methods often fail to produce new content as a function of time while maintaining consistencies expected in real environments, such as plausible dynamics and object persistence. A common failure case is for content to never change due to over-reliance on inductive biases to provide temporal consistency, such as a single latent code that dictates content for the entire video. On the other extreme, without long-term consistency, generated videos may morph unrealistically between different scenes. To address these limitations, we prioritize the time axis by redesigning the temporal latent representation and learning long-term consistency from data by training on longer videos. To this end, we leverage a two-phase training strategy, where we separately train using longer videos at a low resolution and shorter videos at a high resolution. To evaluate the capabilities of our model, we introduce two new benchmark datasets with explicit focus on long-term temporal dynamics.

연구 동기 및 목표

  • 비디오 생성에서 장기적인 일관성과 콘텐츠의 출현 필요성을 고무한다.
  • 장기 시간적 다이나믹스와 고해상도 디테일을 별도로 모델링하는 제너레이터 아키텍처를 개발한다.
  • 실행 가능할 정도의 계산를 유지하면서 로우 해상도 긴 비디오에서 학습하여 긴 범위 의존성을 학습하도록 한다.
  • 시간에 따른 장기 모션과 시점 변화, 새로운 콘텐츠를 강조하는 데이터셋을 도입한다.
  • 장시간 지속 비디오의 현실성과 다이나믹스를 위한 평가 벤치마크와 분석을 제공한다.

제안 방법

  • 저해상도 시간 생성기와 별도의 슈퍼 해상도 네트워크를 갖춘 두 단계의 계층적 제너레이터를 도입한다.
  • 장기 다이나믹스를 모델링하기 위해 장기 범위 저역통과 필터 뱅크로 보강된 시간 잠재 표현을 사용한다.
  • 저해상도 제너레이터를 긴 시퀀스(128 프레임)에서 64x36 해상도로 학습시켜 장기 일관성을 학습한다.
  • 저해상도 프레임의 짧은 시퀀스에서 슈퍼 해상도 네트워크를 학습시켜 256x144(또는 그 이상) 출력을 생성한다.
  • 저해상도 제너레이터와 슈퍼 해상도 네트워크 사이에 모듈식 RGB 병목을 사용하여 유연한 실험을 가능하게 한다.
  • FVD와 질적 평가를 사용하여 StyleGAN-V, MoCoGAN-HD, TATS, DIGAN과 비교하고 시간에 따른 색상 변화 다이나믹스를 분석한다.

실험 결과

연구 질문

  • RQ1비디오 제너레이터가 시간이 지남에 따라 새로운 콘텐츠를 도입하면서도 장기적 시간 일관성을 학습하고 유지할 수 있는가?
  • RQ2장기 범위 시간 잠재 표현을 통해 시간 축을 우선시하는 것이 프레임별 또는 짧은 클립 학습과 비교할 때 긴 동영상의 현실감을 향상시키는가?
  • RQ3긴 지속 비디오 생성을 위한 효과적인 학습 전략(저해상도에서의 긴 시퀀스)과 아키텍처 설계(시간적 업샘플링, 시공간 합성곱)는 무엇인가?
  • RQ4장기 다이나믹스를 갖는 새로 제안된 데이터셋이 비디오 생성 모델에 어떤 도전과 벤치마크를 제시하는가?
  • RQ5제안된 방법이 장기 지표(FVD)와 품질 평가 측면에서 기준 모델에 비해 어떤 성능을 보이는가?

주요 결과

  • 제안된 모델은 시간이 지남에 따라 현실적인 움직임, 카메라 시점 변화 및 새로운 콘텐츠를 포함하는 비디오를 생성한다.
  • 저해상도에서 긴 비디오를 학습하고 별도의 슈퍼해상도 단계로 긴 다이나믹스를 모델링하도록 하여 계산 비용을 합리적으로 유지한다.
  • 긴 기간 다이나믹스를 가진 데이터셋에서 여러 기준선 대비 우수한 Fréchet 비디오 거리(FVD) 점수를 달성하고, 질적 사용자 연구에서도 제안 방법이 선호된다.
  • 판별자 확장과 시간적 저통과로 보강된 잠재 표현은 학습 안정화 및 장기적 일관성을 가능하게 하는 데 중요하다.
  • 어블레이션 결과는 더 긴 학습 시퀀스와 적절한 시간적 저역통과 포효가 긴 비디오의 현실감을 향상시킨다는 것을 보여준다.
  • 새로운 데이터셋(mountain biking, horseback riding)은 장기 콘텐츠 출현과 동적인 카메라 모션을 보여주며 벤치마크 역할을 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.