QUICK REVIEW

[논문 리뷰] Large Scale Adversarial Representation Learning

Jeff Donahue, Karen Simonyan|arXiv (Cornell University)|2019. 07. 04.

Generative Adversarial Networks and Image Synthesis참고 문헌 36인용 수 196

한 줄 요약

BigBiGAN은 Encoder와 공동 판별기를 도입하여 대적 스타일 학습을 가능하게 하고, 연구의 비지도(ImageNet 표현)에서 최첨단 성과를 달성하며 무조건 이미지 생성을 개선합니다.

ABSTRACT

Adversarially trained generative models (GANs) have recently achieved compelling image synthesis results. But despite early successes in using GANs for unsupervised representation learning, they have since been superseded by approaches based on self-supervision. In this work we show that progress in image generation quality translates to substantially improved representation learning performance. Our approach, BigBiGAN, builds upon the state-of-the-art BigGAN model, extending it to representation learning by adding an encoder and modifying the discriminator. We extensively evaluate the representation learning and generation capabilities of these BigBiGAN models, demonstrating that these generation-based models achieve the state of the art in unsupervised representation learning on ImageNet, as well as in unconditional image generation. Pretrained BigBiGAN models -- including image generators and encoders -- are available on TensorFlow Hub (https://tfhub.dev/s?publisher=deepmind&q=bigbigan).

연구 동기 및 목표

자기지도(self-supervised) task가 아니라 고품질 생성 모델로부터 표현 학습을 촉진한다.
BigBiGAN 스타일의 generator와 encoder를 통합하여 BigBiGAN을 개발한다.
선형 탐색(linear probing)을 통해 ImageNet에서 표현 학습 성능을 체계적으로 평가하고 생성 지표(IS, FID)를 평가한다.
설계 선택(인코더 아키텍처, unary 판별기 항목, 생성기 용량)과 이것들이 표현 및 생성에 미치는 영향을 조사한다.

제안 방법

BigGAN 스타일의 생성기 G와 인코더 E를 사용하여 BiGAN/ALI 프레임워크로 데이터 x를 잠재 z로 매핑한다.
Unary 및 joint 항을 통해 데이터 x, 잠재 z 및 그 쌍 (x,z)를 점수화하는 공동 판별기 D를 도입한다.
x에 대해 F, z에 대해 H, x,z의 합동 J를 사용하여 s_x, s_z, s_xz를 계산하는 판별기 아키텍처를 채택한다.
D를 속이도록 인코더-생성기 손실을 최적화하는 한편 D는 인코더로 유도된 쌍과 생성기로 유도된 쌍을 구분하도록 학습한다.
비대칭 E/G 설정, 더 높은 해상도 E 입력, 그리고 분리된 E/G 최적화를 통해 수렴 속도를 가속화한다.
비결정론적 E, unary 손실 항목, 생성기 용량을 포함한 제거 실험(ablation)으로 변형을 비교하고 ImageNet 선형 탐색 및 생성 지표로 평가한다.

실험 결과

연구 질문

RQ1BigGAN 기반 생성기와 인코더를 BiGAN/ALI 프레임워크에서 짝지으면 ImageNet용으로 고품질의 비지도 표현을 학습할 수 있는가?
RQ2Unary 판별기 항목과 안정적인 공동 판별기가 생성 품질을 희생하지 않으면서 표현 학습을 향상시키는가?
RQ3인코더 해상도, 생성기 용량, 분리된 E/G 최적화가 다운스트림 분류 및 무조건 이미지 생성에 어떤 영향을 미치는가?
RQ4BigBiGAN에서 학습된 표현이 ImageNet에서 최첨단 자체지도 방법과 경쟁하는가?
RQ5BigBiGAN의 표현 학습이 무조건 생성 지표(IS, FID)에 미치는 영향은?

주요 결과

BigBiGAN은 생성 모델을 사용하는 최근 방법 중에서 최첨단의 비지도 ImageNet 결과에 부합하거나 그보다 우수하다.
판별기에 unary 항목을 추가하고 인코더 용량을 증가시키면 표현 품질(Cls.)과 생성 지표(IS, FID)가 모두 향상된다.
비결정론적 인코더(z|x 샘플링)가 결정적 인코딩보다 하류 분류에 더 나은 성능을 보인다.
E 해상도 및 G 용량의 증가가 일반적으로 표현 학습을 개선하지만 학습 효율은 감소한다; 더 높은 해상도의 E는 생성 품질(FID)을 향상시킬 수 있다.
E와 G 최적화를 분리하는 것(더 높은 E 학습률)이 학습 속도를 가속하고 선형 분류 성능을 몇 퍼센트 향상시킨다.
고해상도 E를 가진 비지도 BigBiGAN 생성은 IS/FID 벤치마크에서 기존의 비지도 방법들을 능가하고 일부 구성에서 감독된 베이스라인에 근접하거나 이를 일치시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.