[論文レビュー] Closed-Form Factorization of Latent Semantics in GANs
SeFaを紹介します。GANの潜在的意味方向を第一層変換のウェイトを分解することで見つける閉形式・無教師付き手法。訓練やデータサンプリング不要で多用途な画像編集を実現。
A rich set of interpretable dimensions has been shown to emerge in the latent space of the Generative Adversarial Networks (GANs) trained for synthesizing images. In order to identify such latent dimensions for image editing, previous methods typically annotate a collection of synthesized samples and train linear classifiers in the latent space. However, they require a clear definition of the target attribute as well as the corresponding manual annotations, limiting their applications in practice. In this work, we examine the internal representation learned by GANs to reveal the underlying variation factors in an unsupervised manner. In particular, we take a closer look into the generation mechanism of GANs and further propose a closed-form factorization algorithm for latent semantic discovery by directly decomposing the pre-trained weights. With a lightning-fast implementation, our approach is capable of not only finding semantically meaningful dimensions comparably to the state-of-the-art supervised methods, but also resulting in far more versatile concepts across multiple GAN models trained on a wide range of datasets.
研究の動機と目的
- GANが監視やデータサンプリングなしで潜在意味方向を学習することを明らかにする。
- GANジェネレータの最初の投影ステップを分析して影響力のある潜在因子を特定する。
- 発見された意味論が複数のGANアーキテクチャとデータセットで一般化することを示す。
提案手法
- GANジェネレータを層ごとの投影の列としてモデル化し、最初のアフィンステップ G1(z)=Az+b に焦点を当てる。
- 最初の投影後に大きな変化を誘発する意味方向 n を見つけるため、単位ノルムのベクトル n に対して ||An||2 を最大化する無監督最適化を定式化する。
- A^T A の上位 k 個固有ベクトルを解くことで k 個の方向に拡張する。
- 最適方向は A^T A の上位固有ベクトルである(SeFa)。
- SeFa をさまざまなGANアーキテクチャ(PGGAN、StyleGAN、StyleGAN2、BigGAN)に適用し、StyleGANファミリーのターゲット層のウェイトや結合層を使用する。
実験結果
リサーチクエスチョン
- RQ1ラベル付きデータや属性予測子なしで潜在意味方向を発見できるか?
- RQ2GANs において意味のある潜在意味論を露出させる最小限の、モデルウェイトベースの機構は何か?
- RQ3発見された方向は異なるGANアーキテクチャやデータセットに跨って一般化するか?
- RQ4無監督の SeFa 方向は編集品質と多様性において監督付き手法とどう比較されるか?
主な発見
- SeFa は生成器の最初の線形変換を分解することにより、多様で人間が解釈できる潜在方向を特定する。
- 発見された方向は階層的で層依存の構造を形成し、StyleGAN 系モデルの既往観察と一致する。
- SeFa はいくつかの属性に対して監督付き手法に匹敵する編集能力を達成し、データ・ラベル不要のまま。
- SeFa は一部の監督付き手法より広い意味論集合を明らかにし、二値予測子では容易にカバーされない属性の操作を可能にする。
- 定性的・ユーザ研究は、SeFa 指向の編集が特定のケースでアイデンティティや他の属性を、いくつかのサンプリングベースのベースラインよりも良く保持することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。