[논문 리뷰] InfoGAN-CR and ModelCentrality: Self-supervised Model Training and Selection for Disentangling GANs
이 논문은 self-supervised disentanglement를 위한 Contrastive Regularizer를 갖춘 InfoGAN-CR을 도입하고, unsupervised 모델 선택을 위한 ModelCentrality를 제안하여 Ground-truth 라벨 없이도 최첨단 disentanglement를 달성한다.
Disentangled generative models map a latent code vector to a target space, while enforcing that a subset of the learned latent codes are interpretable and associated with distinct properties of the target distribution. Recent advances have been dominated by Variational AutoEncoder (VAE)-based methods, while training disentangled generative adversarial networks (GANs) remains challenging. In this work, we show that the dominant challenges facing disentangled GANs can be mitigated through the use of self-supervision. We make two main contributions: first, we design a novel approach for training disentangled GANs with self-supervision. We propose contrastive regularizer, which is inspired by a natural notion of disentanglement: latent traversal. This achieves higher disentanglement scores than state-of-the-art VAE- and GAN-based approaches. Second, we propose an unsupervised model selection scheme called ModelCentrality, which uses generated synthetic samples to compute the medoid (multi-dimensional generalization of median) of a collection of models. The current common practice of hyper-parameter tuning requires using ground-truths samples, each labelled with known perfect disentangled latent codes. As real datasets are not equipped with such labels, we propose an unsupervised model selection scheme and show that it finds a model close to the best one, for both VAEs and GANs. Combining contrastive regularization with ModelCentrality, we improve upon the state-of-the-art disentanglement scores significantly, without accessing the supervised data.
연구 동기 및 목표
- 감독 없이 disentangled GAN 학습 및 모델 선택의 도전과제를 다룬다.
- 잠재 요인 탐색(latent traversal)을 통해 잠재 분리성을 촉진하는 자기지도 정규화자(self-supervised Regularizer)를 도입한다.
- 실제 레이블 없이 잘 분리된 모델을 선택하기 위한 ModelCentrality를 제안한다.
- 합성 데이터셋(dSprites, 3DTeapots)에서의 효과성과 CelebA의 질적 결과를 입증한다.
- 결합된 접근 방식이 최첨단 감독 학습 조정 baselines를 능가함을 보인다.
제안 방법
- InfoGAN 프레임워크에 Contrastive Regularizer(CR)를 추가하여 InfoGAN-CR을 도입한다.
- 고정된 잠재 요인을 갖는 쌍으로 생성된 이미지에 대해 다방향 가설 검정을 수행하는 CR 판별기 H를 추가한다.
- 하이퍼파라미터 lambda와 alpha에 의해 제어되는 복합 목적 함수 L_Adv - L_Info - L_c로 훈련한다.
- 잠재 요인 탐색(latent-factor traversals) 간의 Jensen–Shannon 발산을 최대화하도록 L_c를 정의하여 서로 다른 잠재 요인 효과를 촉진한다.
- 쉬운 것에서 어려운 것으로 잠재 탐색의 결합을 변화시키기 위해 점진적 훈련을 채택한다.
- 생성 샘플에 대한 교차 모델 FactorVAE 평가로 구축된 모델 간 유사도 행렬에 대해 메도이드 기반 점수를 사용하는 비지도 모델 선택 방법으로 ModelCentrality를 개발한다.
- Ground-truth 라벨 없이 GAN과 VAE 모두에 대해 모델을 선택하기 위해 ModelCentrality를 적용한다.
실험 결과
연구 질문
- RQ1Contrastive Regularizer를 통한 자기지도학습이 InfoGAN을 넘는 GAN의 disentanglement를 개선할 수 있는가?
- RQ2비지도 모델 선택 스킷(ModelCentrality)이 ground-truth 라벨 없이 가장 우수에 가까운 disentangled 모델을 식별할 수 있는가?
- RQ3ModelCentrality가 기존의 비지도 및 지도형 모델 선택 방법(예: UDR Lasso, UDR Spearman)과 어떻게 비교되는가?
- RQ4제안된 방법들이 GAN과 VAE 모두로 일반화되며 표준 disentanglement 벤치마크에서 좋은 성능을 보이는가?
주요 결과
- InfoGAN-CR은 벤치마크 과제에서 최첨단 VAE- 및 GAN 기반 접근법보다 더 높은 disentanglement 점수를 달성한다.
- dSprites 데이터셋에서 InfoGAN-CR은 약 0.88–0.90의 FactorVAE 점수를 달성하고 베이스라인 대비 여러 지표를 향상시킨다.
- 3DTeapots 데이터셋에서 InfoGAN-CR 모델은 여러 disentanglement 지표에서 최고 성능에 도달한다.
- ModelCentrality는 감독 없이 중심 모델을 선택하고 강력한 disentangled 모델 식별에서 UDR Lasso 및 UDR Spearman보다 우수하다.
- CelebA에 대한 질적 잠재 traversals는 일관되고 해석 가능한 요인 변화를 보여준다.
- 일부 설정에서 ModelCentrality로 선택된 모델은 핵심 지표에서 최고 감독-실제 모델과 근접하거나 이를 초과한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.