QUICK REVIEW

[논문 리뷰] A Good Image Generator Is What You Need for High-Resolution Video Synthesis

Yu Tian, Jian Ren|arXiv (Cornell University)|2021. 04. 30.

Generative Adversarial Networks and Image Synthesis참고 문헌 72인용 수 36

한 줄 요약

본 논문(MoCoGAN-HD)은 고정된 미리 학습된 이미지 생성기를 잠재 공간의 학습 가능한 모션 궤도와 결합하여 고품질의 고해상도 비디오를 생성할 수 있음을 보인다. 이는 도메인 간 비디오 합성을 가능하게 하고 상당한 효율성 향상을 가져온다.

ABSTRACT

Image and video synthesis are closely related areas aiming at generating content from noise. While rapid progress has been demonstrated in improving image-based models to handle large resolutions, high-quality renderings, and wide variations in image content, achieving comparable video generation results remains problematic. We present a framework that leverages contemporary image generators to render high-resolution videos. We frame the video synthesis problem as discovering a trajectory in the latent space of a pre-trained and fixed image generator. Not only does such a framework render high-resolution videos, but it also is an order of magnitude more computationally efficient. We introduce a motion generator that discovers the desired trajectory, in which content and motion are disentangled. With such a representation, our framework allows for a broad range of applications, including content and motion manipulation. Furthermore, we introduce a new task, which we call cross-domain video synthesis, in which the image and motion generators are trained on disjoint datasets belonging to different domains. This allows for generating moving objects for which the desired video data is not available. Extensive experiments on various datasets demonstrate the advantages of our methods over existing video generation techniques. Code will be released at https://github.com/snap-research/MoCoGAN-HD.

연구 동기 및 목표

고정된 사전 학습된 이미지 생성기가 잠재 모션 궤도를 학습하여 고해상도 비디오 합성을 이끌 수 있음을 입증한다.
콘텐츠와 모션을 해리하여 유연한 비디오 조작 및 도메인 간 합성을 가능하게 한다.
비디오 생성의 효율성을 개선하여 HD 해상도(1024×1024)까지 가능하게 한다.
이미지 도메인과 모션 도메인이 서로 다른 데이터셋에서 오는 도메인 간 비디오 합성을 도입한다.

제안 방법

공유 이미지 잠재 공간에서 잠재 궤도를 예측하기 위해 두 개의 LSTM으로 구성된 모션 제너레이터를 사용한다.
프레임별 잠재 코드를 이전 코드 주위의 잔차로 표현하며, 잠재 방향의 PCA 기반 기저를 통해 계산된다.
콘텐츠 일관성을 보장하기 위해 대비 이미지 판별기와 현실적인 모션 패턴을 학습하기 위한 다중 스케일 비디오 판별기를 활용한다.
모션 잠재 변수와 LSTM 은닉 상태 간의 상호 정보(mutual information)를 최대화하여 모션 모드 붕괴를 방지한다.
프레임 일관성을 위해 대립적 손실(video 및 image 판별기)과 대비/콘텐츠 보존 손실(InfoNCE)을 결합하여 학습한다.
StyleGAN2 및 BigGAN과 같은 사전 학습된 이미지 생성기와의 통합을 통해 HD 생성을 지원한다.

실험 결과

연구 질문

RQ1고정된 사전 학습된 이미지 생성기가 잠재 공간 모션 궤도를 학습하여 고품질의 시간적으로 일관된 HD 비디오를 합성하는 데 사용될 수 있는가?
RQ2잠재 공간에서 모션과 콘텐츠를 해리하는 것이 이미지 도메인과 모션 도메인이 서로 다른 데이터셋에서 왔을 때 도메인 간 비디오 합성을 가능하게 하는가?
RQ3콘텐츠 충실도를 가장 잘 보존하면서 현실적인 시간적 동역학을 생성하는 판별기 및 보조 손실의 조합은 무엇인가?
RQ4MoCoGAN-HD가 표준 벤치마크와 도메인 간 시나리오에서 최첨단 비디오 생성 방법과 비교하여 어떠한 성능을 보이는가?

주요 결과

고해상도 프레임으로 비디오 생성 벤치마크에서 최첨단 결과를 달성한다(예: UCF-101, FaceForensics, Sky Time-lapse).
UCF-101에서 Inception Score가 33.95이고 Fréchet Video Distance가 700.00(이전 방법 대비).
FaceForensics에서 Fréchet Video Distance가 53.26, Average Content Distance가 0.3300이며, 기준과의 쌍대 판단에서 사람 선호도 73.6%를 달성.
Sky Time-lapse에서 모델은 MDGAN과 DTVNet을 FVD에서 크게 능가하며(예: 77.77), 프레임 예측 시 PSNR/SSIM이 22.286/0.688에 도달한다.
프레임워크는 FFHQ와 VoxCeleb, LSUN-Church와 TLVDB, AFHQ-Dog와 VoxCeleb, AnimeFaces와 VoxCeleb와 같은 도메인 간 비디오 합성을 1024×1024 해상도까지 가능하게 하여 콘텐츠 도메인 간 모션 전이(motion transfer)를 입증한다.
연구의 제거 실험은 대비 이미지 판별기, 비디오 판별기, 모션 잔차 공식화, 다양성과 충실도를 위한 상호 정보 손실의 중요성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.