QUICK REVIEW

[논문 리뷰] Plug & Play Generative Networks: Conditional Iterative Generation of Images in Latent Space

Anh‐Tu Nguyen, Jeff Clune|arXiv (Cornell University)|2016. 11. 30.

Generative Adversarial Networks and Image Synthesis참고 문헌 17인용 수 158

한 줄 요약

이 논문은 사전 훈련된 생성기와 조건부 분류기, 학습된 잠재 사전을 결합하여 잠재 공간 내 반복적 샘플링을 통해 모든 1000개의 ImageNet 클래스에서 고해상도(227×227), 다양하고 사진처럼 사실적인 이미지 합성을 가능하게 하는 Plug-and-Play Generative Networks(PPGN)를 소개한다. 이 방법은 확률적 에너지 기반 프레임워크 하에서 메트로폴리스 조정 랑주 방식과 함께 활성화 최대화를 통합함으로써 최신 기술 수준의 품질과 다양성을 달성한다.

ABSTRACT

Generating high-resolution, photo-realistic images has been a long-standing goal in machine learning. Recently, Nguyen et al. (2016) showed one interesting way to synthesize novel images by performing gradient ascent in the latent space of a generator network to maximize the activations of one or multiple neurons in a separate classifier network. In this paper we extend this method by introducing an additional prior on the latent code, improving both sample quality and sample diversity, leading to a state-of-the-art generative model that produces high quality images at higher resolutions (227x227) than previous generative models, and does so for all 1000 ImageNet categories. In addition, we provide a unified probabilistic interpretation of related activation maximization methods and call the general class of models "Plug and Play Generative Networks". PPGNs are composed of 1) a generator network G that is capable of drawing a wide range of image types and 2) a replaceable "condition" network C that tells the generator what to draw. We demonstrate the generation of images conditioned on a class (when C is an ImageNet or MIT Places classification network) and also conditioned on a caption (when C is an image captioning network). Our method also improves the state of the art of Multifaceted Feature Visualization, which generates the set of synthetic inputs that activate a neuron in order to better understand how deep neural networks operate. Finally, we show that our model performs reasonably well at the task of image inpainting. While image models are used in this paper, the approach is modality-agnostic and can be applied to many types of data.

연구 동기 및 목표

활성화 최대화 방법을 사용한 고해상도 이미지 합성에서의 다양성과 품질 부족 문제를 해결하기 위해.
잠재 코드에 대한 학습된 사전을 도입하여 잠재 공간 최적화에서 샘플의 다양성과 현실감을 향상시키기 위해.
기존의 활성화 최대화 기법들을 확률적 에너지 기반 프레임워크 아래 통합하여 생성 모델링을 위해.
ImageNet 클래스 외에도 이미지 캡션을 포함한 모odular한 '플러그 앤 플레이' 조건 네트워크를 통해 조건부 이미지 생성을 가능하게 하기 위해.
다양한 기능 시각화와 이미지 복원 작업에서의 방법의 유용성을 입증하기 위해.

제안 방법

잠재 코드 h에 대한 사전 항목 p(h)와 분류기 활성화 기반의 조건 항목을 포함하는 에너지 기반 모델로 활성화 최대화를 수식화한다.
잠재 코드 h를 이미지로 매핑하기 위해 생성 네트워크 G를 사용하며, 최적화 중에는 사전 훈련된 상태로 고정된다.
혼합 성능과 다양성을 향상시키기 위해 에너지 기반 모델에서 반복적으로 샘플링하기 위해 근사적인 메트로폴리스 조정 랑주 샘플링 알고리즘을 적용한다.
실제 이미지 특징을 기반으로 잠재 공간에서 학습함으로써 현실적인 이미지 생성을 장려하는 공동 사전 p(h)를 도입한다.
분류기 네트워크 C의 목표 뉴런 활성도를 최대화하도록 h를 최적화하여 조건부 생성을 가능하게 하며, 이 C는 ImageNet 또는 캡션 생성 네트워크일 수 있다.
관측된 이미지 영역과 일치하도록 h를 제약함으로써, 클래스 레이블과 부분적인 실재 이미지 컨텍스트를 조건으로 하여 이미지 복원을 지원한다.

실험 결과

연구 질문

RQ1학습된 사전을 갖춘 잠재 공간 최적화 방법이 모든 1000개의 ImageNet 클래스에서 고해상도, 다양하고 사진처럼 사실적인 이미지를 생성할 수 있는가?
RQ2잠재 코드에 대한 학습된 사전을 도입함으로써 표준 활성화 최대화 방법에 비해 샘플의 다양성과 품질이 어떻게 향상되는가?
RQ3동일한 생성기로 ImageNet 클래스나 자연어 캡션과 같은 다양한 조건에 기반한 이미지 생성이 가능한가?
RQ4기존 방법에 비해 PPGN 프레임워크는 다면적 기능 시각화에서 얼마나 향상된 성능을 보이는가?
RQ5클래스 조건과 공간적 컨텍스트 제약 조건을 결합함으로써 PPGN는 효과적인 이미지 복원을 수행할 수 있는가?

주요 결과

PPGN는 모든 1000개의 ImageNet 클래스에서 거의 사진처럼 사실적인 고해상도(227×227) 이미지를 다양하게 생성하며, 품질과 다양성 측면에서 이전 방법들을 능가한다.
잠재 코드에 대한 학습된 사전의 도입으로 샘플의 다양성이 크게 향상되어 모드 붕괴가 감소하고, 동일 클래스 내에서 여러 이미지 구성에 대한 탐색이 가능해졌다.
단일 뉴런을 자극하는 다양한 의미 있는 자극을 드러내는 다면적 기능 시각화에서 최신 기술 수준의 성능을 달성하였다.
클래스 레이블과 공간적 컨텍스트를 모두 활용하여 결손 영역을 복원함으로써 이미지 복원에서 뛰어난 성능을 보였으며, 의미적으로 일관된 결과를 생성하였다.
제거 실험 결과, 사전 항목과 조건 항목 간 최적의 균형(예: ϵ1 = 10⁻⁵)이 이미지 품질과 다양성을 최대화하는 것으로 나타났으며, 너무 강한 사전은 모드 붕괴를 유도하는 것으로 확인되었다.
특징 공간 내 유사도가 낮아지는 것으로 측정된 바에 따르면, 일부 경우에서 실제 ImageNet 훈련 이미지보다도 더 높은 다양성을 보이며 데이터 다양성의 다양성을 효과적으로 탐색하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.