QUICK REVIEW

[論文レビュー] Megapixel Size Image Creation using Generative Adversarial Networks

Marco Marchesi|arXiv (Cornell University)|May 31, 2017

Generative Adversarial Networks and Image Synthesis参考文献 3被引用数 38

ひとこと要約

本論文では、2,000枚未塔の限定的なデータセットから、最適化されたトレーニングダイナミクスと制約付き潜在空間ノイズを用いて、アーチファクトを低減し、モード崩壊や発散を防ぐことで、1024×1024ピクセルのフォトリアルなメガピクセルサイズの画像を生成する、修正されたDCGANフレームワークを提示している。

ABSTRACT

Since its appearance, Generative Adversarial Networks (GANs) have received a lot of interest in the AI community. In image generation several projects showed how GANs are able to generate photorealistic images but the results so far did not look adequate for the quality standard of visual media production industry. We present an optimized image generation process based on a Deep Convolutional Generative Adversarial Networks (DCGANs), in order to create photorealistic high-resolution images (up to 1024x1024 pixels). Furthermore, the system was fed with a limited dataset of images, less than two thousand images. All these results give more clue about future exploitation of GANs in Computer Graphics and Visual Effects.

研究の動機と目的

2,000枚未塔の限定的データセットを用いて、高解像度でフォトリアルな画像を生成する課題に対処すること。
これまで未解決であった、メガピクセルサイズの画像（1024×1024px）にスケーリングする際のGANのトレーニング不安定性を克服すること。
限られたトレーニングデータと高い解像度にもかかわらず、生成画像のアーチファクトやモード崩壊を最小限に抑えること。
フォトリアルで安定したGAN生成画像を商業的ビジュアルメディア生産に実用可能にするために、実用性を確保すること。

提案手法

画像解像度に応じて可変バッチサイズを用いたTensorFlowベースのディープコンボリューショナルGAN（DCGAN）を実装した。
生成器と判別器を50ステップごとに交互に更新するトレーニング戦略を適用し、損失の安定化と発散の防止を図った。
潜在空間ノイズ入力を[-0.5, 0.5]の範囲の一様分布に制約することで、[-1.0, 1.0]と比較してアーチファクトを低減した。
雑誌やSNSから収集した1,796～1,807枚の女性の顔画像をデータセットとして使用し、そのうち70%が512×512px未塔の画像であった。
1枚のNVIDIA Pascal Titan X GPUを用い、192×192pxではバッチサイズ128、1024×1024pxではバッチサイズ6に調整することでメモリ使用量を最適化した。
192×192pxから1024×1024pxへと段階的に画像を生成するプログレッシブトレーニング戦略を採用し、高解像度画像生成を支援するアーキテクチャ設計を実施した。

実験結果

リサーチクエスチョン

RQ12,000枚未塔のデータセットを用いて、GANモデルがメガピクセル解像度（1024×1024px）のフォトリアルな画像を生成できるか？
RQ2限られたデータで高解像度画像生成にスケーリングする際、GANのトレーニング発散をどのように防止できるか？
RQ3潜在空間ノイズ分布の制約が、生成画像のアーチファクトにどの程度の効果をもたらすか？
RQ4交互に更新するトレーニング戦略は、高解像度GANトレーニングにおいて生成器と判別器の両方の損失を安定化させることができるか？

主な発見

本モデルは、2,000枚未塔のデータセットを用いて1024×1024ピクセルのフォトリアルな画像を成功裏に生成し、GANで同サイズの画像生成を達成した初の事例である。
制約付き潜在空間ノイズ範囲[-0.5, 0.5]の使用により、標準的な[-1.0, 1.0]範囲と比較して、視覚的アーチファクトが顕著に低減された。
50ステップごとの交互トレーニング更新により、損失関数が安定し、すべての画像サイズでloss(D) < 1およびloss(G) < 3を維持し、発散を回避した。
データセットの70%が512×512px未塔の画像であったにもかかわらず、アップサンプリングと生成学習により、高解像度の詳細を効果的に学習した。
1枚のNVIDIA Pascal Titan Xで安定したトレーニングが達成されたことから、限られたGPUメモリでも高解像度GANの実現可能性が示された。
本アプローチにより、フォトリアルで高品質な画像が得られ、業界基準を満たす商業的ビジュアルメディア用途に適した品質を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。