[論文レビュー] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis
本論文は、Skip-Layer Channel-wise Excitation (SLE)モジュールを備えた軽量なGANと、特徴エンコーダとして訓練された自己教師付き識別器を導入し、限られたハードウェアで一から訓練した少数ショットデータから高忠実度の1024×1024画像合成を実現する。
Training Generative Adversarial Networks (GAN) on high-fidelity images usually requires large-scale GPU-clusters and a vast number of training images. In this paper, we study the few-shot image synthesis task for GAN with minimum computing cost. We propose a light-weight GAN structure that gains superior quality on 1024*1024 resolution. Notably, the model converges from scratch with just a few hours of training on a single RTX-2080 GPU, and has a consistent performance, even with less than 100 training samples. Two technique designs constitute our work, a skip-layer channel-wise excitation module and a self-supervised discriminator trained as a feature-encoder. With thirteen datasets covering a wide variety of image domains (The datasets and code are available at: https://github.com/odegeasslbc/FastGAN-pytorch), we show our model's superior performance compared to the state-of-the-art StyleGAN2, when data and computing budget are limited.
研究の動機と目的
- 限られたデータと限られた計算資源で高解像度画像の無条件GANを訓練することを目指す。
- 単一のGPUでゼロから収束する軽量なジェネレーター-ディスクリミネーター構成を開発する。
- 少数ショットデータ領域における訓練の安定性と合成品質を向上させる。
- StyleGANに類似した自動的なスタイル-コンテンツの分離を、構造設計を通じて実現する。
提案手法
- 低解像度の活性化を用いて高解像度の特徴マップを再較正する Skip-Layer Channel-wise Excitation (SLE) を導入する。
- 長距離のスキップ接続とチャネル単位ゲーティングを用いて解像度を超えて SLE を動作させ、勾配の流れを改善する。
- 実画像の特徴を再構成するデコーダを備えた特徴エンコーダとして訓練される自己教師付き識別器を追加し、再構成損失を用いてDを正則化する。
- ヒンジ対立損失を用いてGANを訓練し、Dのための軽量な自己符号化再構成目的を組み込む。
- StyleGAN2 および強力な DCGAN由来のベースラインと比較し、少数ショットおよび高解像度設定に焦点を当てる。
- 1024×1024 までの13の多様なデータセットで評価し、FIDと LPIPS を指標として用いる。
実験結果
リサーチクエスチョン
- RQ1専門的な設計モジュールを備えたコンパクトなGANは、限られたデータと小さな計算資源から高忠実度の1024×1024合成を達成できるか?
- RQ2解像度を跨ぐスキップ接続(SLE)と自己教師付き識別器の訓練は、訓練の安定性を高め、モード崩壊を低減するか?
- RQ3提案技術は、少数ショットおよび小規模データ領域において StyleGAN2 や強力なベースラインとどのように比較されるか?
- RQ4対戦的訓練を妨げずに、自己監視によって識別器をどの程度正則化してGに利益をもたらすことができるか?
主な発見
- 提案モデルは、複数のデータセットにおいて、制限されたデータと計算資源の下で最先端のStyleGAN2より優れた合成品質を達成する。
- SLEは勾配の流れを改善し、自動的なコンテンツ–スタイルの分離を可能にし、収束を早める。
- 自己教師付きD、特にオートエンコーディングは最大の性能向上を提供し、モード崩壊に対する訓練の安定性を高める。
- 本手法は高解像度(1024×1024)と小規模データセットでロバストであり、しばしば単一GPUで数時間の訓練のみで済む。
- 定性的・定量的な結果は、多くの few-shot データセットで基準モデルより優れており、StyleGAN2 が収束不能になる場合でも安定性を維持することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。