[論文レビュー] Large Scale Adversarial Representation Learning
BigBiGAN は BigGAN をエンコーダとジョイント判別器で拡張し、対立的表現学習を可能にし、監督なし ImageNet 表現で最先端を達成し、無条件画像生成を改善する。
Adversarially trained generative models (GANs) have recently achieved compelling image synthesis results. But despite early successes in using GANs for unsupervised representation learning, they have since been superseded by approaches based on self-supervision. In this work we show that progress in image generation quality translates to substantially improved representation learning performance. Our approach, BigBiGAN, builds upon the state-of-the-art BigGAN model, extending it to representation learning by adding an encoder and modifying the discriminator. We extensively evaluate the representation learning and generation capabilities of these BigBiGAN models, demonstrating that these generation-based models achieve the state of the art in unsupervised representation learning on ImageNet, as well as in unconditional image generation. Pretrained BigBiGAN models -- including image generators and encoders -- are available on TensorFlow Hub (https://tfhub.dev/s?publisher=deepmind&q=bigbigan).
研究の動機と目的
- 自己教師付きタスクよりも高品質な生成モデルからの表現学習を動機づける。
- BigBiGANを、BigGAN風の生成器 G とエンコーダ E、ジョイント判別器 D を統合して開発する。
- ImageNet で線形プロービングによる表現学習性能を系統的に評価し、生成指標(IS, FID)を評価する。
- 設計選択(エンコーダのアーキテクチャ、単項判別項、生成器の容量)と、それらが表現と生成の双方に与える影響を調査する。
提案手法
- BigGAN-風の生成器 G とエンコーダ E を用いてデータ x を潜在変数 z に写像する BiGAN/ALI フレームワークを用いる。
- データ x、潜在 z、およびそれらの対 (x,z) を一項項と結合項を通じてスコアリングするジョイント判別器 D を導入する。
- x 用の F、z 用の H、x,z の結合用の J を備えた判別器アーキテクチャを採用し、スコア s_x、s_z、s_xz を計算する。
- エンコーダ-生成器の損失を最適化して D を欺き、D はエンコーダ起因の対と生成器起因の対を区別するように学習させる。
- 非対称の E/G 設定、より高解像度の E 入力、E/G の分離最適化を用いて収束を加速させて訓練する。
- 非決定的な E、単項損失項、生成器の容量を含むアブレーションを通じて変種を比較し、ImageNet の線形プロービングと生成指標で評価する。)
実験結果
リサーチクエスチョン
- RQ1BiGAN/ALI フレームワーク内で、BigGAN ベースの生成器とエンコーダを組み合わせたものが ImageNet の高品質な無監督表現を学習できるか?
- RQ2単項判別項と安定したジョイント判別器が、生成品質を損なうことなく表現学習を改善するか?
- RQ3エンコーダの解像度、生成器の容量、分離された E/G 最適化は下流の分類と無条件画像生成にどう影響するか?
- RQ4BigBiGAN から学習した表現は ImageNet における最新の自己教師付き手法と競合するか?
- RQ5BigBiGAN の無条件生成指標(IS、FID)に対する表現学習の影響はどの程度か?
主な発見
- BigBiGAN は、生成モデルを用いる最近の方法の中で最先端の無監督 ImageNet 結果と一致するか、それを上回る。
- 判別器に単項項を追加し、エンコーダの容量を増やすと、表現品質(Cls.)と生成指標(IS、FID)の双方が向上する。
- 非決定的なエンコーダ(x からの z のサンプリング)は、決定的なエンコーディングより下流分類において良い。
- E の解像度と G の容量を増やすと一般に表現学習が向上するが、訓練効率は低下する。高解像度の E は生成品質(FID)を高める可能性がある。
- E と G の最適化を分離する(E の学習率を高くする)ことで訓練を加速し、線形分類性能を数パーセント改善する。
- 高解像度の E を用いた無監督 BigBiGAN による生成は IS/FID ベンチマークで従来の無監督法を上回り、いくつかの構成では教師ありベースラインに近づくか同等になる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。