QUICK REVIEW

[논문 리뷰] Video Synthesis from a Single Image and Motion Stroke

Qiyang Hu, Adrian Waelchli|arXiv (Cornell University)|2018. 12. 05.

Generative Adversarial Networks and Image Synthesis참고 문헌 20인용 수 11

한 줄 요약

이 논문은 단일 이미지와 운동 스토크(운동 방향을 정의하는 신호)를 입력으로 받아 장시간의 비디오 시퀀스를 합성하는 순환 비디오 생성 모델을 제안한다. 과거, 현재, 미래 상태를 분리하고 자동에코딩 및 적대적 훈련을 사용함으로써, MNIST, KTH, Human3.6M를 포함한 다양한 데이터셋에서 현실적이고 시간적으로 일관된 애니메이션을 생성한다.

ABSTRACT

We present a method to generate a video sequence given a single image. Because items in an image can be animated in arbitrarily many different ways, we introduce as control signal a sequence of motion strokes. Such control signal can be automatically transferred from other videos, e.g., via bounding box tracking. Each motion stroke provides the direction to the moving object in the input image and we aim to train a network to generate an animation following a sequence of such directions. To address this task we design a novel recurrent architecture, which can be trained easily and effectively thanks to an explicit separation of past, future and current states. As we demonstrate in the experiments, our proposed architecture is capable of generating an arbitrary number of frames from a single image and a sequence of motion strokes. Key components of our architecture are an autoencoding constraint to ensure consistency with the past and a generative adversarial scheme to ensure that images look realistic and are temporally smooth. We demonstrate the effectiveness of our approach on the MNIST, KTH, Human3.6M, Push and Weizmann datasets.

연구 동기 및 목표

단일 정적 이미지와 운동 스토크를 제어 신호로 사용하여 비디오 합성을 가능하게 하기 위해.
이미지 애니메이션에서 다양한 및 임의의 운동 가능성을 다루기 위해.
생성된 비디오 시퀀스의 시간적 일관성과 시각적 현실감을 확보하기 위해.
과거, 현재, 미래 상태를 명시적으로 분리하는 훈련 友好的 아키텍처를 설계하기 위해.
인간 운동과 물체 역학을 포함한 다양한 데이터셋에 대한 일반화 능력을 입증하기 위해.

제안 방법

이 방법은 훈련 및 생성 안정성을 향상시키기 위해 네트워크의 은닉 상태를 과거, 현재, 미래 구성요소로 명시적으로 분리하는 새로운 순환 아키텍처를 사용한다.
운동 스토크는 다른 비디오에서 경계 상자 추적을 통해 유도된 제어 신호로서, 입력 이미지의 물체 운동 방향을 정의한다.
과거 프레임을 재구성함으로써 이전에 생성된 프레임과의 시각적 일관성을 유지하기 위해 자동에코딩 제약 조건을 적용한다.
생성된 비디오 프레임의 현실감과 시간적 매끄러움을 향상시키기 위해 생성적 적대적 네트워크(GAN) 손실을 사용한다.
재구성 및 적대적 목표를 모두 사용하여 엔드 투 엔드로 훈련함으로써 정밀도와 다양성을 균형 잡는다.
단일 이미지와 운동 스토크 시퀀스로부터 임의의 수의 프레임을 생성할 수 있도록 아키텍처를 지원한다.

실험 결과

연구 질문

RQ1운동 스토크로 유도되는 단일 이미지로부터 장시간의 현실적인 비디오 시퀀스를 생성할 수 있는가?
RQ2명시적인 상태 분리 기반의 순환 아키텍처가 비디오 생성에서 장기적인 시간적 의존성을 얼마나 효과적으로 모델링하는가?
RQ3자동에코딩과 적대적 훈련의 조합이 시각 품질과 시간적 일관성에 얼마나 기여하는가?
RQ4다양한 운동 패턴과 물체 유형을 가진 다양한 데이터셋에 대해 일반화가 가능한가?
RQ5다른 비디오에서 유도된 운동 스토크가 새로운 이미지에서 애니메이션 제어에 얼마나 잘 전이되는가?

주요 결과

제안된 방법은 단일 이미지와 운동 스토크 입력으로부터 장시간의 비디오 시퀀스를 성공적으로 생성하여 강력한 시간적 일관성을 보여준다.
과거, 현재, 미래 상태의 명시적 분리는 순환 네트워크의 안정적이고 효과적인 훈련을 가능하게 한다.
자동에코딩 제약 조건은 과거 콘텐츠를 유지함으로써 생성된 프레임 간의 시각적 일관성을 크게 향상시킨다.
적대적 훈련 방식은 현실감과 시간적 매끄러움을 향상시켜 현실적으로 보이는 애니메이션을 생성한다.
MNIST(숫자 운동), KTH(행동 시퀀스), Human3.6M(인간 운동), Push(물체 밀기), Weizmann(인간 행동)를 포함한 다양한 데이터셋에서 잘 일반화된다.
추론 시 진짜 비디오 레이블이 필요 없이 운동 스토크 제어만으로도 고품질의 비디오 합성을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.