Skip to main content
QUICK REVIEW

[論文レビュー] Image Augmentations for GAN Training

Zhengli Zhao, Zizhao Zhang|arXiv (Cornell University)|Jun 4, 2020
Advanced Neural Network Applications参考文献 47被引用数 116
ひとこと要約

本論文はGAN訓練のための画像拡張を体系的に研究し、実画像と生成画像の両方を拡張すること、特に一貫性正則化と対比的正則化を用いることで、生成品質を大幅に向上させ、CIFAR-10における最先端の結果を達成することを示している。

ABSTRACT

Data augmentations have been widely studied to improve the accuracy and robustness of classifiers. However, the potential of image augmentation in improving GAN models for image synthesis has not been thoroughly investigated in previous studies. In this work, we systematically study the effectiveness of various existing augmentation techniques for GAN training in a variety of settings. We provide insights and guidelines on how to augment images for both vanilla GANs and GANs with regularizations, improving the fidelity of the generated images substantially. Surprisingly, we find that vanilla GANs attain generation quality on par with recent state-of-the-art results if we use augmentations on both real and generated images. When this GAN training is combined with other augmentation-based regularization techniques, such as contrastive loss and consistency regularization, the augmentations further improve the quality of generated images. We provide new state-of-the-art results for conditional generation on CIFAR-10 with both consistency loss and contrastive loss as additional regularizations.

研究の動機と目的

  • GAN訓練における広範な画像拡張操作の有効性を評価する。
  • 実画像のみを拡張するのか、それとも実画像と生成画像の両方を拡張するのかがGANの性能に影響を与えるかを判断する。
  • 一貫性正則化やコントラスト損失など、拡張に基づく正則化のGANへの影響を評価する。
  • さまざまなアーキテクチャに共通して、GAN生成品質を最も改善する拡張タイプとその強さを特定する。

提案手法

  • SNDCGAN(無条件)とBigGAN(条件付き)を用いて、CIFAR-10で10個の基本拡張と3個の高度拡張を評価する。
  • 識別器に入力する前に、実画像のみを拡張する場合と実画像と生成画像の両方を拡張する場合を比較する。
  • ヒンジ損失を適用し、堅牢性のために複数の乱数シードでFréchet Inception Distance (FID)を報告する。
  • 拡張データに対して一貫性正則化(CR)と均衡化CR(BCR)を組み込み、付加的な利得を評価する。
  • 実画像と偽画像の拡張コピーに対してコントラスト損失(Cntr)を導入し、補完的な正則化効果を検討する。
  • CntrをBCRと組み合わせて、CIFAR-10条件付き生成で最先端のFIDを達成する。

実験結果

リサーチクエスチョン

  • RQ1拡張は、実画像のみに適用した場合と実画像と生成画像の両方に適用した場合のどちらでGANの性能を改善するか?
  • RQ2どの拡張タイプ(空間的なもの vs 視覚的なもの)がGAN生成品質を最も向上させるか?
  • RQ3一貫性正則化とコントラスト損失は、GANの拡張戦略とどのように相互作用するか?
  • RQ4拡張と正則化を組み合わせて、CIFAR-10で最先端の結果を達成できるか?

主な発見

  • 実画像のみを拡張することは、ノーマルなGAN訓練には効果が薄く、FIDを悪化させる可能性がある。
  • 実画像と生成画像の両方を一貫して拡張することは、アーキテクチャを問わずGANの性能を一貫して向上させる。
  • 空間的拡張(例:平移、拡大)は、視覚的拡張のみよりもFID改善で優れている。
  • 拡張データに対する一貫性正則化は顕著な利得をもたらし、しばしば基本的CRバリアントを上回る。
  • コントラスト損失と一貫性正則化と拡張を組み合わせると、CIFAR-10条件付き生成で新しい最先端FIDを達成する。
  • CIFAR-10では、拡張と正則化の併用が、拡張なしの従来のCR-GAN手法と同等か、それを超える可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。