[논문 리뷰] High-Fidelity Image Generation With Fewer Labels
본 논문은 자기지도 학습 및 준지도 학습이 더 적은 라벨로도 고충실도 ImageNet 이미지 생성을 가능하게 하며, 10%의 라벨에서도 BigGAN을 사용한 경우와 같거나 이를 능가하고, 20%에서 SOTA FID/IS를 달성한다는 것을 보여준다.
Deep generative models are becoming a cornerstone of modern machine learning. Recent work on conditional generative adversarial networks has shown that learning complex, high-dimensional distributions over natural images is within reach. While the latest models are able to generate high-fidelity, diverse natural images at high resolution, they rely on a vast quantity of labeled data. In this work we demonstrate how one can benefit from recent work on self- and semi-supervised learning to outperform the state of the art on both unsupervised ImageNet synthesis, as well as in the conditional setting. In particular, the proposed approach is able to match the sample quality (as measured by FID) of the current state-of-the-art conditional model BigGAN on ImageNet using only 10% of the labels and outperform it using 20% of the labels.
연구 동기 및 목표
- 자기지도 학습이 GAN 학습을 안내할 의미론적 특징을 제공하는 방법을 시연한다.
- 제한된 실제 라벨이 있는 GAN에 조건 정보를 추론하기 위한 준지도 표기 학습을 조사한다.
- 라벨이 적은 데이터를 유지하면서 샘플 품질을 높게 유지하는 사전 학습 및 협동 학습(co-training) 접근법을 평가한다.
- GAN 학습 중 자기지도 학습을 고충실도 이미지 합성의 안정화 요인으로 평가한다.
제안 방법
- 고충실도 ImageNet 생성을 위한 백본으로 조건부 BigGAN 아키텍처를 사용한다.
- 세 가지 라벨 축소 접근법 패밀리를 탐구한다: (i) 클러스터링이나 선형 분류기를 포함한 사전 학습된 자기/준지도 방법, (ii) 협동 학습에서 보조 분류기가 GAN 학습 중 미라벨 데이터의 라벨을 예측, (iii) 판별기에 추가된 GAN 학습 시 자기지도.
- 판별기 및 생성기 손실에 회전 기반 자기지도(self-supervision)를 보조 작업으로 도입한다.
- Projection 판별기에서 하드 라벨 대 소프트 라벨의 차이를 실험하고 5%, 10%, 20% 라벨 데이터에서의 안정성을 연구한다.
- ImageNet에서 128x128 및 256x256 해상도로 FID 및 Inception Score(IS)를 사용해 평가한다.
- 재현성을 위한 오픈 소스 코드가 제공된다.
실험 결과
연구 질문
- RQ1자기지도 표현이 제한된 라벨로도 고충실도 ImageNet 생성을 가능하게 하는가?
- RQ2사전 학습, 협동 학습, 자기지도 목표가 샘플 품질을 보존하거나 향상시키면서 라벨 데이터를 줄이는 데 어떻게 비교되는가?
- RQ3GAN 학습 중의 자기지도는 제한된 라벨로 학습된 고해상도 GAN의 안정화를 가져오는가?
주요 결과
- 자기지도 표현으로의 클러스터링은 비지도 ImageNet 생성에서 새로운 SOTA를 달성하여 기본 비지도 구성 대비 FID를 낮추고 IS를 높인다.
- 사전 학습된 준지도 S2 GAN은 20% 라벨 데이터에서 BigGAN과 일치하며 10% 라벨에서 크게 접근한다.
- 협동 학습 S2 GAN-CO는 라벨 비율에 따라 비지도 기초를 능가하며, 20% 라벨에서 FID 13.9와 IS 49.2를 달성하여 감독 기초 라벨 대비에 근접한다.
- GAN 학습 중의 자기지도(S3 GAN)는 10% 라벨에서 BigGAN과 일치하고 20% 라벨에서 이를 능가하며, 여러 설정에서 FID를 약 5–10% 정도 향상시킨다.
- 하드 라벨(예측된 라벨)이 여러 구성에서 소프트 라벨보다 우수하며, 자기지도는 방식 전반에서 안정성과 샘플 품질을 지속적으로 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.