QUICK REVIEW

[論文レビュー] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis

Bingchen Liu, Yizhe Zhu|arXiv (Cornell University)|Jan 12, 2021

Generative Adversarial Networks and Image Synthesis参考文献 53被引用数 109

ひとこと要約

本論文は、Skip-Layer Channel-wise Excitation (SLE)モジュールを備えた軽量なGANと、特徴エンコーダとして訓練された自己教師付き識別器を導入し、限られたハードウェアで一から訓練した少数ショットデータから高忠実度の1024×1024画像合成を実現する。

ABSTRACT

Training Generative Adversarial Networks (GAN) on high-fidelity images usually requires large-scale GPU-clusters and a vast number of training images. In this paper, we study the few-shot image synthesis task for GAN with minimum computing cost. We propose a light-weight GAN structure that gains superior quality on 1024*1024 resolution. Notably, the model converges from scratch with just a few hours of training on a single RTX-2080 GPU, and has a consistent performance, even with less than 100 training samples. Two technique designs constitute our work, a skip-layer channel-wise excitation module and a self-supervised discriminator trained as a feature-encoder. With thirteen datasets covering a wide variety of image domains (The datasets and code are available at: https://github.com/odegeasslbc/FastGAN-pytorch), we show our model's superior performance compared to the state-of-the-art StyleGAN2, when data and computing budget are limited.

研究の動機と目的

限られたデータと限られた計算資源で高解像度画像の無条件GANを訓練することを目指す。
単一のGPUでゼロから収束する軽量なジェネレーター-ディスクリミネーター構成を開発する。
少数ショットデータ領域における訓練の安定性と合成品質を向上させる。
StyleGANに類似した自動的なスタイル-コンテンツの分離を、構造設計を通じて実現する。

提案手法

低解像度の活性化を用いて高解像度の特徴マップを再較正する Skip-Layer Channel-wise Excitation (SLE) を導入する。
長距離のスキップ接続とチャネル単位ゲーティングを用いて解像度を超えて SLE を動作させ、勾配の流れを改善する。
実画像の特徴を再構成するデコーダを備えた特徴エンコーダとして訓練される自己教師付き識別器を追加し、再構成損失を用いてDを正則化する。
ヒンジ対立損失を用いてGANを訓練し、Dのための軽量な自己符号化再構成目的を組み込む。
StyleGAN2 および強力な DCGAN由来のベースラインと比較し、少数ショットおよび高解像度設定に焦点を当てる。
1024×1024 までの13の多様なデータセットで評価し、FIDと LPIPS を指標として用いる。

実験結果

リサーチクエスチョン

RQ1専門的な設計モジュールを備えたコンパクトなGANは、限られたデータと小さな計算資源から高忠実度の1024×1024合成を達成できるか？
RQ2解像度を跨ぐスキップ接続（SLE）と自己教師付き識別器の訓練は、訓練の安定性を高め、モード崩壊を低減するか？
RQ3提案技術は、少数ショットおよび小規模データ領域において StyleGAN2 や強力なベースラインとどのように比較されるか？
RQ4対戦的訓練を妨げずに、自己監視によって識別器をどの程度正則化してGに利益をもたらすことができるか？

主な発見

提案モデルは、複数のデータセットにおいて、制限されたデータと計算資源の下で最先端のStyleGAN2より優れた合成品質を達成する。
SLEは勾配の流れを改善し、自動的なコンテンツ–スタイルの分離を可能にし、収束を早める。
自己教師付きD、特にオートエンコーディングは最大の性能向上を提供し、モード崩壊に対する訓練の安定性を高める。
本手法は高解像度（1024×1024）と小規模データセットでロバストであり、しばしば単一GPUで数時間の訓練のみで済む。
定性的・定量的な結果は、多くの few-shot データセットで基準モデルより優れており、StyleGAN2 が収束不能になる場合でも安定性を維持することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。