[論文レビュー] InfoGAN-CR and ModelCentrality: Self-supervised Model Training and Selection for Disentangling GANs
本論文は InfoGAN-CR を用いた Contrastive Regularizer を GAN に対して導入し、自己 supervise による latent disentanglement を実現すると共に、ground-truth ラベルなしで最先端の disentanglement を達成するための ModelCentrality を提案します。
Disentangled generative models map a latent code vector to a target space, while enforcing that a subset of the learned latent codes are interpretable and associated with distinct properties of the target distribution. Recent advances have been dominated by Variational AutoEncoder (VAE)-based methods, while training disentangled generative adversarial networks (GANs) remains challenging. In this work, we show that the dominant challenges facing disentangled GANs can be mitigated through the use of self-supervision. We make two main contributions: first, we design a novel approach for training disentangled GANs with self-supervision. We propose contrastive regularizer, which is inspired by a natural notion of disentanglement: latent traversal. This achieves higher disentanglement scores than state-of-the-art VAE- and GAN-based approaches. Second, we propose an unsupervised model selection scheme called ModelCentrality, which uses generated synthetic samples to compute the medoid (multi-dimensional generalization of median) of a collection of models. The current common practice of hyper-parameter tuning requires using ground-truths samples, each labelled with known perfect disentangled latent codes. As real datasets are not equipped with such labels, we propose an unsupervised model selection scheme and show that it finds a model close to the best one, for both VAEs and GANs. Combining contrastive regularization with ModelCentrality, we improve upon the state-of-the-art disentanglement scores significantly, without accessing the supervised data.
研究の動機と目的
- Disentangled GAN の訓練と supervision なしのモデル選択の課題に対処する。
- 潜在 traversals を介して潜在表現の disentanglement を促進する自己 supervise の Regularizer を導入する。
- ground-truth ラベルなしで well-disentangled なモデルを選択する ModelCentrality を提案する。
- synthetic datasets (dSprites, 3DTeapots) および qualitative CelebA の結果で有効性を実証する。
- 提案手法の組み合わせが最先端の supervised-tuning ベースラインを上回ることを示す。
提案手法
- InfoGAN-CR を InfoGAN フレームワークへ Contrastive Regularizer (CR) を追加して導入する。
- 固定潜在因子を持つペア生成画像に対して多クラス仮説検定を行う CR ディスクリミネータ H を追加する。
- 総合目的関数として L_Adv - L_Info - L_c を用いて訓練する。ハイパーパラメータ lambda と alpha によって統御する。
- L_c を潜在因子 traversals に対して Jensen–Shannon 距離を最大化するように定義し、潜在因子効果の分離を促進する。
- easy から hard へと潜在 traversals の結合を段階的に変化させる progressive training を採用する。
- ModelCentrality を cross-model FactorVAE 評価に基づく生成サンプル上のモデル類似性行列から medoid ベースのスコアを用いて無 supervision で行うモデル選択手法として開発する。
- ModelCentrality を適用して GAN と VAE の両方のモデルを ground-truth ラベルなしで選択する。
実験結果
リサーチクエスチョン
- RQ1Can self-supervision via a Contrastive Regularizer improve disentanglement in GANs beyond InfoGAN?
- RQ2Can an unsupervised model selection scheme (ModelCentrality) identify near-best disentangled models without ground-truth labels?
- RQ3How does ModelCentrality compare to existing unsupervised and supervised model selection methods (e.g., UDR Lasso, UDR Spearman)?
- RQ4Do the proposed methods generalize to both GANs and VAEs and perform well on standard disentanglement benchmarks?
主な発見
- InfoGAN-CR はベンチマークタスクで最先端の VAE- および GAN ベースの手法より高い disentanglement スコアを達成する。
- dSprites データセットでは InfoGAN-CR が FactorVAE スコアを約 0.88–0.90 の範囲で達成し、ベースラインと比較して複数の指標を改善する。
- 3DTeapots データセットでは InfoGAN-CR モデルがいくつかの disentanglement 指標でトップパフォーマンスを達成する。
- ModelCentrality は supervision なしで中心的なモデルを選択し、強力な disentangled モデルの識別において UDR Lasso および UDR Spearman を上回る。
- CelebA の qualitative 潜在 traversals は、整合的で解釈可能な因子変化を示す。
- いくつかの設定では、ModelCentrality 選択モデルが主要な指標で最良の supervised-ground-truth モデルに近いまたはそれを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。