[논문 리뷰] Video-to-Video Synthesis
조건부 GAN 프레임워크를 제안하여 입력 비디오 표현(예: 세그멘테이션 마스크, 스케치, 자세)을 사진처럼 사실적이고 시간적으로 일관된 비디오로 변환하며, 거친-에서 섬세한 생성기 및 이미지/비디오 현실감을 위한 이중 판별기를 포함하고, 고해상도 결과와Future 비디오 예측을 포함한 다중 모달 가능성을 보여줍니다.
We study the problem of video-to-video synthesis, whose goal is to learn a mapping function from an input source video (e.g., a sequence of semantic segmentation masks) to an output photorealistic video that precisely depicts the content of the source video. While its image counterpart, the image-to-image synthesis problem, is a popular topic, the video-to-video synthesis problem is less explored in the literature. Without understanding temporal dynamics, directly applying existing image synthesis approaches to an input video often results in temporally incoherent videos of low visual quality. In this paper, we propose a novel video-to-video synthesis approach under the generative adversarial learning framework. Through carefully-designed generator and discriminator architectures, coupled with a spatio-temporal adversarial objective, we achieve high-resolution, photorealistic, temporally coherent video results on a diverse set of input formats including segmentation masks, sketches, and poses. Experiments on multiple benchmarks show the advantage of our method compared to strong baselines. In particular, our model is capable of synthesizing 2K resolution videos of street scenes up to 30 seconds long, which significantly advances the state-of-the-art of video synthesis. Finally, we apply our approach to future video prediction, outperforming several state-of-the-art competing systems.
연구 동기 및 목표
- 입력 비디오 표현을 사진처럼 사실적인 출력 비디오로 변환하는 문제를 동기 부여하고 형식화한다.
- 시간적 일관성과 높은 시각 품질을 보장하기 위해 특수한 생성기와 판별기로 구성된 조건부 GAN 프레임워크를 개발한다.
- 광--정적-변형 및 가려짐 처리를 위한 순차적 시공간 생성 프로세스를 도입한다.
- 인스턴스 수준의 특징을 주입하여 다중 모달 비디오 합성을 가능하게 한다.
- 관측 가능한 다양한 데이터셋에서 일반화와 품질 향상을 보여주기 위해 이 접근법을 미래 비디오 예측으로 확장한다.
제안 방법
- 비디오-투-비디오 합성을 p(xtilde1..T|s1..T) ≈ p(x1..T|s1..T)로 조건 분포 매칭으로 форм화한다.
- 과거 출력과 현재/과거 소스 프레임을 사용하여 xtilde_t를 예측하는 L=2의 시간 조건부 순차 생성기 F를 사용한다.
- 예측된 광학 흐름 W와 헛갈린 구성요소 H를 이용한 xtilde_t를 xt-1의 워프 방식으로 모델링하고, 소프트 오클루전 마스크 m_t로 혼합한다.
- 전경-배경 프라이어를 도입하여 운동이 있는 전경 객체와 일반적으로 뷰가 안정적인 배경을 분리하여 합성을 안내한다.
- 두 개의 판별기를 사용한다: per-frame 현실감을 위한 조건부 이미지 판별기 DI와 짧은 및 긴 범위의 시간 일관성을 위한 조건부 비디오 판별기 DV, 그리고 LW를 포함한 흐름 기반 손실.
- 특징 매칭 및 지각 손실을 이용하여 L = minF maxDI LI + maxDV LV + LW로 공동 최적화하고 학습을 안정화한다.
- 고해상도 결과를 위한 세 가지 스케일(512x256, 1024x512, 2048x1024)의 거친-에서 섬세한 생성기를 채택하고, 다중 스케일 PatchGAN 판별기를 사용한다.
- 인스턴스 수준 마스크를 위한 잠재 특징 임베딩을 학습하여 다중 모달 합성을 가능하게 하며 테스트 시 클래스 특이 분포에서 샘플링하여 출력의 다양성을 확보한다.
- 관측 프레임으로부터 미래 의미 정보를 먼저 예측한 다음 동일한 합성 파이프라인으로 비디오로 번역하여 미래 비디오 예측으로 확장한다.
실험 결과
연구 질문
- RQ1조건부 GAN 프레임워크가 조작 가능한 입력 표현(세그멘테이션, 스케치, 자세)로부터 사진처럼 사실적이고 시간적으로 일관된 비디오를 합성할 수 있는가?
- RQ2공간-시간 목표와 광학 흐름 기반 워핑을 도입하면 프레임별 영상-대-영상 기반에 비해 시간적 일관성 및 시각적 품질이 향상되는가?
- RQ3인스턴스 수준 특징을 주입하여 동일한 입력에서 다양한 출력을 생성하는 다중 모달 비디오 합성을 모델이 지원하는가?
- RQ42K 해상도, 예를 들어 30초 길이의 긴 비디오에서 및 세그멘테이션 마스크, 스케치, 자세 등 다양한 입력 모달리티에서 방법이 얼마나 잘 작동하는가?
- RQ5관측된 미래의 의미를 먼저 예측하고 이를 비디오로 번역하는 방식이 미래 비디오 예측에 효과적인가?
주요 결과
- 제안된 vid2vid 방법은 Cityscapes 및 관련 데이터셋에서 강력한 baselines인 pix2pixHD 및 COVST보다 주관적 선호도와 객관적 지표에서 더 높은 지각 품질과 시간적 일관성을 달성한다.
- 모델은 2K 해상도의 비디오를 최대 30초 길이까지 생성할 수 있으며 사진처럼 사실적 품질을 유지하고 프레임 간 시간적 일관성을 유지한다.
- 광학 흐름 기반 워핑 구성요소와 소프트 오클루전 마스크를 갖춘 거친-에서 섬세한 생성기가 단순한 에지 기반 워핑보다 디테일 합성과 안정성을 향상시킨다.
- 전경-배경 프라이어를 도입하면 시각적 품질이 크게 개선되며, 제거 시 악화가 눈에 띄게 나타난다.
- 인스턴스 수준 특징 샘플링을 통해 입력에 대해 서로 다른 출력을 가능하게 하는 다중 모달 합성을 지원하며, 트리에서 건물로의 의미 내용 변경과 같은 동영상의 사실성을 유지하면서 시맨틱 내용을 조작할 수 있다.
- 향후 비디오 예측에 대해 제안된 방법은 경쟁 방법들보다 Fréchet Inception Distance가 낮고 인간 선호도 점수가 더 높으며, 평가에서 PredNet 및 MCNet을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.