QUICK REVIEW

[논문 리뷰] First Order Motion Model for Image Animation

Aliaksandr Siarohin, Stéphane Lathuilière|arXiv (Cornell University)|2020. 02. 29.

Generative Adversarial Networks and Image Synthesis인용 수 144

한 줄 요약

논문은 학습된 키포인트와 지역적 아핀 변환, 그리고 가림(occlusion) 인식 생성기를 포함한 1차 모션 모델을 활용하여 소스 객체를 드라이빙 비디오에 따라 애니메이트하는 자기지도(self-supervised) 객체-카테고리 비특이적 이미지 애니메이션 프레임워크를 제시한다. 객체에 특화된 사전지식 없이도 여러 데이터셋에서 더 높은 품질의 결과를 달성한다.

ABSTRACT

Image animation consists of generating a video sequence so that an object in a source image is animated according to the motion of a driving video. Our framework addresses this problem without using any annotation or prior information about the specific object to animate. Once trained on a set of videos depicting objects of the same category (e.g. faces, human bodies), our method can be applied to any object of this class. To achieve this, we decouple appearance and motion information using a self-supervised formulation. To support complex motions, we use a representation consisting of a set of learned keypoints along with their local affine transformations. A generator network models occlusions arising during target motions and combines the appearance extracted from the source image and the motion derived from the driving video. Our framework scores best on diverse benchmarks and on a variety of object categories. Our source code is publicly available.

연구 동기 및 목표

이미지 애니메이션에서 외관(appearance)과 운동(motion)을 객체 특이 주석이나 priors 없이 분리한다.
학습된 키포인트와 지역적 아핀 변환을 통해 복잡한 모션을 모델링한다.
가림을 고려한 생성기로 워핑 중 발생하는 가림을 처리한다.
등가성 강화 트레이닝 규칙으로 모션 추정을 개선한다.
다양한 객체 범주에 걸친 고해상도 결과를 시연하고, 새로운 데이터 세트 Thai-Chi-HD를 공개한다.

제안 방법

스테이지-투 모션 추정: 자기지도 인코더-디코더를 사용해 희소 키포인트와 이들 주위의 지역적 아핀 변환을 탐지한다.
드라이빙 프레임에서 소스 프레임으로의 역방향 옵티컬 플로우와 가림 맵을 생성하기 위해 지역 모션을 조합하는 조밀한 모션 네트워크를 사용한다.
가밀 모션과 가림 맵에 조건지어진 생성기로 소스 이미지를 워핑하고 보정한다.
가림 인식 기능 워핑 파이프라인으로 소스 특징을 타깃에 맞추고 가려진 영역을 보정한다.
주요 포인트와 Jacobian의 일관성을Known 기하학적 변환 하에서 강제하는 등가성 손실을 확장한다.
동일 객체 범주 비지도 학습으로 엔드-투-엔드 학습한다.
테스트 단계에서는 드라이빙 프레임 간 상대 모션을 소스 프레임에 적용하여 상대 모션 전달을 수행한다.

실험 결과

연구 질문

RQ1객체 범주에 구애받지 않는 모션 표현(학습된 키포인트와 지역적 아핀 변환)이 주석 없이도 다양한 객체를 신뢰성 있게 애니메이트할 수 있는가?
RQ2가림 모델링과 Jacobian 등가성을 도입하면 0차 키포인트 모델보다 애니메이션 품질이 향상되는가?
RQ3제안된 방법이 고해상도 데이터셋과 다양한 객체 범주에서 기존 방법과 비교하여 어떤 성능을 발휘하는가?
RQ4테스트 시 상대 모션 전달과 절대 모션 전달 중 어떤 것이 더 큰 영향을 가지는가?

주요 결과

제안된 방법이 다수의 데이터셋에서 양적·질적 평가에서 최첨단 이미지 애니메이션 방법들을 능가한다.
학습된 키포인트 주위의 지역적 아핀 변환을 사용하면 제로차(zeroth-order) 접근보다 큰 포즈 변화와 비강체(non-rigid) 모션의 모델링이 개선된다.
가림 인식 생성은 소스 이미지에서 보이지 않는 영역을 명시적으로 다룸으로써 재구성 및 사실감이 크게 향상된다.
키포인트와 Jacobian에 대한 등가성 제약이 학습을 안정화하고 모션 추정 성능을 개선한다.
고해상도 결과가 가능하며, 평가를 위한 새로운 Thai-Chi-HD 데이터셋이 도입된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.