[論文レビュー] Collaborative Learning for Faster StyleGAN Embedding
この論文は、埋め込みネットワークと最適化ベースのイテレーターを共同訓練する協調学習フレームワークを紹介し、実画像をStyleGANの潜在空間に効率的に埋め込み、競争力の inversion 品質でリアルタイム推論を実現する。
The latent code of the recent popular model StyleGAN has learned disentangled representations thanks to the multi-layer style-based generator. Embedding a given image back to the latent space of StyleGAN enables wide interesting semantic image editing applications. Although previous works are able to yield impressive inversion results based on an optimization framework, which however suffers from the efficiency issue. In this work, we propose a novel collaborative learning framework that consists of an efficient embedding network and an optimization-based iterator. On one hand, with the progress of training, the embedding network gives a reasonable latent code initialization for the iterator. On the other hand, the updated latent code from the iterator in turn supervises the embedding network. In the end, high-quality latent code can be obtained efficiently with a single forward pass through our embedding network. Extensive experiments demonstrate the effectiveness and efficiency of our work.
研究の動機と目的
- リアルタイム編集のために、リアル画像をStyleGANの潜在空間へ効率的に inversion する動機づけ。
- アイデンティティと属性を分離してW+潜在コードへ画像をマッピングする埋め込みネットワークを開発する。
- イテレーターの改良が埋め込みネットワークを監督する協調ループを活用する。
- 対になる潜在コードやオフライン最適化を必要とせず、迅速で高品質なインバージョンを達成する。
- 高速埋め込みによって可能となる幅広い意味論的編集アプリケーションを実証する。
提案手法
- 潜在コードのインバージョンのために、埋め込みネットワークと最適化ベースのイテレーターを組み合わせた協調フレームワークを提案する。
- アイデンティティと属性の2つのエンコーダを用い、それらの特徴をデノーマライゼーションで統合してW+のw_eを予測する。
- イテレーターをw_eで初期化し、MSEとLPIPSを組み合わせた損失L_optを用いてw_oへ最適化する。
- 潜在コード(L_w)、画像(L_mse)、知覚(L_per)信号の損失で埋め込みネットワークを監督する。
- 最良の監督を保持するためのキャッシュ機構を備え、収束を加速するオンライン反復。
実験結果
リサーチクエスチョン
- RQ1埋め込みネットワークと最適化ベースのイテレーターを組み合わせた場合、オフライン最適化より高速に高品質なStyleGAN逆変換を実現できるか?
- RQ2埋め込みネットワークでアイデンティティと属性情報を分離することは、潜在コードの精度と編集品質を向上させるか?
- RQ3協調学習が収束速度と inversion 指標(PSNR、SSIM、LPIPS)にどのような影響を与えるか、最新手法と比べてどうか?
主な発見
| Method | PSNR (CelebA-HQ) | SSIM (CelebA-HQ) | LPIPS (CelebA-HQ) | PSNR (CACD) | SSIM (CACD) | LPIPS (CACD) |
|---|---|---|---|---|---|---|
| Image2StyleGAN | 29.72 | 0.75 | 0.18 | 31.39 | 0.80 | 0.12 |
| StyleGAN-Encoder | 32.08 | 0.85 | 0.18 | 33.10 | 0.85 | 0.11 |
| Image2StyleGAN++ | 32.46 | 0.90 | 0.22 | 34.40 | 0.90 | 0.15 |
| Ours | 31.47 | 0.83 | 0.16 | 32.05 | 0.83 | 0.11 |
- 本手法は、最速手法のおよそ500倍の速度で競争力のあるインバージョン品質を達成する。
- われわれの手法はCelebA-HQでLPIPS=0.16、CACDで0.11、PSNRはそれぞれ31.47と32.05、SSIMは両データセットで0.83。
- イテレーターは埋め込みネットワークによるより良い初期化の恩恵を受け、収束が速く上限性能も向上する。
- アイデンティティと属性を分離したエンコーダは、単一のResNetベースエンコーダよりインバージョン品質を向上させる。
- キャッシュ機構により、イテレーターの最近の結果が最適でなくても、埋め込みネットワークは強力な監督信号を受け取る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。