[論文レビュー] TediGAN: Text-Guided Diverse Face Image Generation and Manipulation
TediGANは、GAN inversionをマルチモーダル入力に対して学習し、StyleGANの潜在空間で視覚的・言語的埋め込みを整合させ、インスタンスレベルの最適化を適用してアイデンティティを保持し、1024x1024の高品質な結果とマルチモーダル合成を可能にする、テキスト誘導画像生成と操作を単一フレームワークに統合します。
In this work, we propose TediGAN, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and instance-level optimization. The inversion module maps real images to the latent space of a well-trained StyleGAN. The visual-linguistic similarity learns the text-image matching by mapping the image and text into a common embedding space. The instance-level optimization is for identity preservation in manipulation. Our model can produce diverse and high-quality images with an unprecedented resolution at 1024. Using a control mechanism based on style-mixing, our TediGAN inherently supports image synthesis with multi-modal inputs, such as sketches or semantic labels, with or without instance guidance. To facilitate text-guided multi-modal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/weihaox/TediGAN.
研究の動機と目的
- 高品質で柔軟なテキスト誘導顔生成と操作の必要性を動機づける。
- 1つのモデル内で生成と操作の両方をサポートする統一フレームワークを開発する。
- 実画像をStyleGANの潜在空間へマッピングするためのGAN inversionを組み込み、意味論的に有意な編集を可能にする。
- 視覚と言語の表現を共通の空間で整合させるクロスモーダル埋め込みを学習する。
- 操作中にアイデンティティを保持するため、インスタンスレベルの最適化を用いる。
提案手法
- 実画像をStyleGANのW潜在空間へマッピングするStyleGAN inversionモジュールと、ピクセルレベルおよび意味レベルの再構成損失。
- 視覚-言語類似度学習により、画像とテキストを共通のW-spaceへ射影し、層ごとの潜在コードを用いて統合する。
- エンコーダの意味領域へ正則化しつつ invertedコードを洗練するインスタンスレベルの最適化。
- スタイルミキシングに基づくコントロール機構で、選択したStyleGAN層を入れ替え、生成または操作を実現する。
- スケッチ、ラベル、画像などのマルチモーダル入力をスタイルコードとして扱い、層レベルのミックスを適用する。
- 訓練と評価のために、テキストおよびモダリティ指向の合成を可能にするMulti-Modal CelebA-HQデータセットを提案する。
実験結果
リサーチクエスチョン
- RQ1単一のフレームワークで、テキスト駆動の画像生成と高解像度での操作を jointly 高解像度で実現できるか。
- RQ2テキスト・スケッチ・ラベルなどのマルチモーダル入力を、 controllable 合成のための共有潜在空間へどのように統合できるか。
- RQ3インスタンスレベルの最適化は、テキスト誘導操作中のアイデンティティ保持を改善するか。
- RQ4複数のモダリティを用いたテキスト誘導顔合成の性能を最も正確に反映するデータセットと評価指標は何か。
主な発見
| 手法 | FID | LPIPS | Acc. | Real. |
|---|---|---|---|---|
| AttnGAN | 125.98 | 0.512 | 14.2 | 20.3 |
| ControlGAN | 116.32 | 0.522 | 18.2 | 22.5 |
| DFGAN | 137.60 | 0.581 | 22.8 | 25.5 |
| DM-GAN | 131.05 | 0.544 | 19.5 | 12.8 |
| TediGAN | 106.37 | 0.456 | 25.3 | 31.7 |
- 1024^2解像度で多様で高品質な顔画像を達成。
- Multi-Modal CelebA-HQでのFID、LPIPS、精度、リアリズムの点でテキストから画像生成の最先端を上回る。
- テキスト誘導画像操作において、FID、精度、リアリズムの点でManiGANを上回る。
- 入力モダリティ間でのスタイルミキシングを通じた効果的なマルチモーダル合成を実証。
- レイヤーごとの解析がStyleGANの階層と高レベル属性・細かな属性を整合させることを示す。
- テキスト-モダリティ指向の合成を可能にするMulti-Modal CelebA-HQデータセットを紹介。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。