QUICK REVIEW

[論文レビュー] Conditional Image Synthesis With Auxiliary Classifier GANs

Augustus Odena, Christopher Olah|arXiv (Cornell University)|Oct 30, 2016

Cell Image Analysis Techniques参考文献 30被引用数 2,070

ひとこと要約

論文はAC-GANsを紹介します。これはauxiliary classifierを備えたクラス条件付きGANの変種であり、128×128の高解像度でグローバルに整合したImageNetサンプルと、出力の識別性と多様性を評価する新しい指標を可能にします。

ABSTRACT

Synthesizing high resolution photorealistic images has been a long-standing challenge in machine learning. In this paper we introduce new methods for the improved training of generative adversarial networks (GANs) for image synthesis. We construct a variant of GANs employing label conditioning that results in 128x128 resolution image samples exhibiting global coherence. We expand on previous work for image quality assessment to provide two new analyses for assessing the discriminability and diversity of samples from class-conditional image synthesis models. These analyses demonstrate that high resolution samples provide class information not present in low resolution samples. Across 1000 ImageNet classes, 128x128 samples are more than twice as discriminable as artificially resized 32x32 samples. In addition, 84.7% of the classes have samples exhibiting diversity comparable to real ImageNet data.

研究の動機と目的

GANベースの画像合成のトレーニングを、クラス conditioning と auxiliary classification を組み合わせて改善する動機付けと開発。
全1000クラスのImageNetで128×128解像度の画像生成を、グローバル整合性とともに実証する。
モデルが出力解像度をどれだけ利用しているか（識別性）およびクラス内の多様性（MS-SSIM）を評価する指標を導入する。
クラス分割とデータセットのスケールがサンプル品質と多様性に与える影響を分析する。
高品質なサンプルが多様であり、単なる memorization あるいは collapse にはとらわれないという証拠を提供する。
AC-GANsを用いた半教師あり学習アプリケーションの潜在的可能性についての洞察を提供する。

提案手法

Gは (c, z) を受け取って X_fake を生成する AC-GAN を提案する；D は S (source) と C (class) を出力する。
D を最大化する L_S + L_C、G を最大化する L_C − L_S をそれぞれ最適化する。ここで L_S は正しい source の対数尤度、L_C は正しい class の対数尤度である。
ImageNet の10クラス分割を用いて100個の AC-GAN のアンサンブルを訓練し、1000クラスへスケールさせる。
高解像度出力がより多くのクラス情報を含むことを示すために、低解像度へダウンサンプリングした画像に対する Inception 精度で識別性を評価する。
生成サンプル間の対MS-SSIMを用いてクラス内多様性を測定し、ImageNet の訓練データと比較する。

実験結果

リサーチクエスチョン

RQ1AC-GANsは全1000クラスでグローバルに整合した128×128の画像を生成できるか。
RQ2高解像度の生成サンプルは、ダウンサンプリング済みまたは低解像度の出力よりも多くのクラス情報を保持するか。
RQ3生成サンプルは多くのクラス内で現実データに比べて知覚的な多様性を示すか。
RQ41000クラスを小さな分割に分けることはサンプル品質とモデル訓練の安定性にどのような影響を与えるか。
RQ5生成サンプルは過学習や memorization に陥りやすいか、潜在空間の補間から意味ある構造を明らかにできるか。

主な発見

AC-GANsは全1000クラスの128×128サンプルをグローバルに整合した状態で生成する。
128×128サンプルを32×32へダウンサンプリングすると視覚的識別性が50%低下する；84.4%のクラスで128×128の方が32×32よりInception精度が高い。
生成サンプル間の平均 MS-SSIM 多様性は1000クラス中847クラスで訓練データより低い（84.7%が現実データと同程度の多様性）。
AC-GANsは CIFAR-10 において Salimans et al. 2016 の手法を使わずに Inception score を 8.25±0.07 に達成し、従来の最先端 8.09±0.07 を上回る。
潜在空間の補間は意味のある意味的遷移と z とクラスラベルの部分的なデカップリングを示し、構成的な構造を示唆する。
最近傍解析は生成サンプルが訓練データの memorized copies ではないことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。