QUICK REVIEW

[논문 리뷰] Disentangling in Latent Space by Harnessing a Pretrained Generator.

Yotam Nitzan, Amit H. Bermano|arXiv (Cornell University)|2020. 05. 15.

Generative Adversarial Networks and Image Synthesis인용 수 14

한 줄 요약

이 논문은 스타일 제너레이터와 같은 사전 훈련된 비조건부 제너레이터를 사용하여 잠재 공간 내에서 분리 표현을 학습하는 방법을 제안한다. 이는 합성 과정과 분리 표현 학습 과정을 분리함으로써, 제너레이터를 다시 훈련할 필요 없이 수행된다. 데이터를 제너레이터의 잠재 공간에 매핑함으로써, 최소한의 감독 하에 다른 얼굴 특징에서 신원을 분리하는 데 있어 최신 기술 수준의 성능을 달성하며, 광범위한 훈련과 감독이 필요한 기존 방법들을 능가한다.

ABSTRACT

Learning disentangled representations of data is a fundamental problem in artificial intelligence. Specifically, disentangled latent representations allow generative models to control and compose the disentangled factors in the synthesis process. Current methods, however, require extensive supervision and training, or instead, noticeably compromise quality. In this paper, we present a method that learns how to represent data in a disentangled way, with minimal supervision, manifested solely using available pre-trained networks. Our key insight is to decouple the processes of disentanglement and synthesis, by employing a leading pre-trained unconditional image generator, such as StyleGAN. By learning to map into its latent space, we leverage both its state-of-the-art quality, and its rich and expressive latent space, without the burden of training it. We demonstrate our approach on the complex and high dimensional domain of human heads. We evaluate our method qualitatively and quantitatively, and exhibit its success with de-identification operations and with temporal identity coherency in image sequences. Through extensive experimentation, we show that our method successfully disentangles identity from other facial attributes, surpassing existing methods, even though they require more training and supervision.

연구 동기 및 목표

최소한의 감독 하에 고차원 데이터에서 분리 표현을 학습하는 데 도전하는 것.
분리 표현 학습 과정을 이미지 생성 과정에서 분리하여, 제너레이터를 다시 훈련할 필요 없이 수행하는 것.
스타일 제너레이터와 같은 사전 훈련된 비조건부 제너레이터의 고품질, 표현력 있는 잠재 공간을 활용해 분리 표현 학습을 수행하는 것.
이미지 합성에서 신원 및 특징과 같은 분리된 요소를 제어할 수 있도록 하는 것.
탈식별화 및 이미지 시퀀스에서의 시간적 신원 일관성과 같은 응용 분야에서의 효과를 입증하는 것.

제안 방법

사전 훈련된 비조건부 제너레이터(예: 스타일 제너레이터)의 잠재 공간에 입력 데이터를 매핑하여 고해상도 생성 능력을 활용한다.
기존 제너레이터의 잠재 공간 내에서 신원을 다른 얼굴 특징에서 분리하는 데 목적이 있는 매핑 네트워크를 훈련시켜 분리 표현을 달성한다.
제너레이터를 재훈련하지 않아도 되므로, 최신 기술 수준의 이미지 품질과 표현력을 유지한다.
매핑 네트워크는 유용한 애너테이션 또는 약한 신호만을 기반으로 최소한의 감독 하에 훈련된다.
분리된 잠재 코드는 신원을 유지하면서 특징를 편집하는 등 제어 가능한 이미지 합성을 가능하게 한다.
이 방법은 인간의 얼굴 이미지에 대해 평가되었으며, 탈식별화 및 일관된 신원 유지가 가능한 영상 생성에 있어 강건성을 입증했다.

실험 결과

연구 질문

RQ1재훈련 없이 사전 훈련된 제너레이터만을 사용하여 잠재 공간 내에서 분리 표현을 학습할 수 있는가?
RQ2최소한의 감독 하에 다른 얼굴 특징에서 신원을 얼마나 잘 분리할 수 있는가?
RQ3더 많은 훈련과 감독이 필요한 기존 방법들보다 이 방법이 더 나은 분리 성능을 달성할 수 있는가?
RQ4제어 가능한 요소 편집을 가능하게 하면서도 높은 이미지 품질을 유지할 수 있는가?
RQ5분리된 표현이 탈식별화 및 시간적 신원 일관성 유지와 같은 실용적 응용 분야를 지원할 수 있는가?

주요 결과

이 방법은 최소한의 감독 하에 고차원 인간 얼굴 데이터에서 다른 특징에서 신원을 효과적으로 분리한다.
이 방법은 훨씬 더 많은 훈련과 감독이 필요한 기존 방법들에 비해 뛰어난 분리 성능을 달성한다.
사전 훈련된 제너레이터의 생성 능력을 활용함으로써 최신 기술 수준의 이미지 품질을 유지한다.
분리된 표현은 신원을 제거하면서도 얼굴의 구조와 특징을 유지하는 효과적인 탈식별화를 가능하게 한다.
이 방법은 특징 편집 중에도 프레임 간 일관된 신원 유지가 가능한 시간적 신원 일관성 유지 성능을 입증했다.
정량적 평가 결과, 이 방법은 경량 훈련 설정에도 불구하고 기존 접근 방식을 초월하는 분리 성능을 확보했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.