[論文レビュー] Large Scale Image Completion via Co-Modulated Generative Adversarial Networks
共同モジュレートGANを導入し、条件付きと確率的スタイル表現を共同で使用することで、高品質で多様な大規模画像インペインティングを実現し、評価のための知覚指標(P-IDS/U-IDS)を提案します。
Numerous task-specific variants of conditional generative adversarial networks have been developed for image completion. Yet, a serious limitation remains that all existing algorithms tend to fail when handling large-scale missing regions. To overcome this challenge, we propose a generic new approach that bridges the gap between image-conditional and recent modulated unconditional generative architectures via co-modulation of both conditional and stochastic style representations. Also, due to the lack of good quantitative metrics for image completion, we propose the new Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS), which robustly measures the perceptual fidelity of inpainted images compared to real images via linear separability in a feature space. Experiments demonstrate superior performance in terms of both quality and diversity over state-of-the-art methods in free-form image completion and easy generalization to image-to-image translation. Code is available at https://github.com/zsyzzsoft/co-mod-gan.
研究の動機と目的
- 画像条件付きモジュレートGANと無条件モジュレートGANのギャップを埋め、大規模インペインティングに対応する。
- 限られた条件情報でも多様で一貫性のあるインペイントを実現する。
- 画像完成における知覚的忠実性の頑健な定量指標を提供する。
- 画像から画像への翻訳タスクへの一般化を実証する。
提案手法
- コモジュレーションを提案する:条件エンコーダの出力と確率的潜在スタイルの両方を線形アフィン写像を介して共同モジュレートする。
- 画像条件付きジェネレーター内で.StyleGAN2風の無条件モジュレーションアーキテクチャを活用し、確率性を維持する。
- 多様性と現実性を促進するため、追加のL1損失なしに標準的なGAN損失で訓練する。
- P-IDS/U-IDSを導入する:Inception特徴空間で線形SVMを用いたペア/非ペアの識別スコアを用いて知覚忠実性を測定する。
- コモジュレーションが品質と多様性の両方を改善すること、特に大きな欠損領域に対して有効で、画像-to-画像翻訳を容易にすることを実証する。
実験結果
リサーチクエスチョン
- RQ1コモジュレーションされたGANは、画像条件付きと無条件生成器を橋渡しして大規模な画像完成に対応できるか。
- RQ2コモジュレーションモデルは追加の監視なしに校正済みの多様性と知覚忠実性を提供できるか。
- RQ3提案されたP-IDS/U-IDS指標は頑健でスケーラブルで、人間の嗜好と相関するか。
- RQ4本手法はインペインティングを超えた画像から画像への翻訳タスクへ一般化できるか。
主な発見
| Method | FFHQ P-IDS(%) | FFHQ U-IDS(%) | FFHQ FID | Places2 P-IDS(%) | Places2 U-IDS(%) | Places2 FID |
|---|---|---|---|---|---|---|
| RFR (official) | 0.0 pm 0.0 | 0.0 pm 0.0 | 48.7 pm 0.5 | 0.3 pm 0.0 | 4.6 pm 0.0 | 49.6 pm 0.2 |
| DeepFillv2 (official) | 0.0 pm 0.0 | 0.1 pm 0.0 | 83.5 pm 0.6 | 0.8 pm 0.0 | 8.4 pm 0.0 | 30.6 pm 0.2 |
| DeepFillv2 (retrained) | 0.9 pm 0.1 | 8.6 pm 0.2 | 17.4 pm 0.4 | 1.4 pm 0.0 | 11.4 pm 0.0 | 22.1 pm 0.1 |
| Ours | 16.6 pm 0.3 | 29.4 pm 0.3 | 3.7 pm 0.0 | 13.3 pm 0.1 | 27.4 pm 0.1 | 7.9 pm 0.0 |
- コモジュレーションGANは、自由形式の画像完成において最先端手法と比べて品質と多様性の両方で優れている。
- コモジュレーションは確率性を保持し、入力とマスクが固定された場合でも多様な出力を生み出す。
- P-IDS/U-IDSは小さなサンプルサイズで収束し、人間の嗜好と良く一致し、FID/KIDより頑健性と感度で優れている。
- この手法はエッジ→写真やCOCO-Stuffラベル→画像生成など、画像間翻訳タスクへ一般化する。
- アブレーション研究で、コモジュレーションは従来の単純条件モジュレーションを上回り、特に大規模な欠損領域で優れている。
- FFHQとPlaces2で、本手法はP-IDS/U-IDSとFIDの双方で有利な定量結果を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。