Skip to main content
QUICK REVIEW

[論文レビュー] Cooperative Training of Descriptor and Generator Networks

Jianwen Xie, Yang Lu|arXiv (Cornell University)|Sep 29, 2016
Generative Adversarial Networks and Image Synthesis被引用数 30
ひとこと要約

本稿では、下位から上位への畳み込みニューラルネットワークと上位から下位への畳み込みニューラルネットワークを用いて、エネルギーベース記述子ネットワークと生成モデルの協調学習フレームワークを提案する。MCMCサンプリングと対照的勾配降下法を組み合わせることで、記述子ネットワークがMCMC遷移を通じて生成器に学習を教える。これにより、モード崩壊を回避し、現実的な画像生成が可能となり、PSNR 19.407、SSIM 0.5988という、動的テクスチャ生成において最先端の性能を達成する。

ABSTRACT

This paper studies the cooperative training of two generative models for image modeling and synthesis. Both models are parametrized by convolutional neural networks (ConvNets). The first model is a deep energy-based model, whose energy function is defined by a bottom-up ConvNet, which maps the observed image to the energy. We call it the descriptor network. The second model is a generator network, which is a non-linear version of factor analysis. It is defined by a top-down ConvNet, which maps the latent factors to the observed image. The maximum likelihood learning algorithms of both models involve MCMC sampling such as Langevin dynamics. We observe that the two learning algorithms can be seamlessly interwoven into a cooperative learning algorithm that can train both models simultaneously. Specifically, within each iteration of the cooperative learning algorithm, the generator model generates initial synthesized examples to initialize a finite-step MCMC that samples and trains the energy-based descriptor model. After that, the generator model learns from how the MCMC changes its synthesized examples. That is, the descriptor model teaches the generator model by MCMC, so that the generator model accumulates the MCMC transitions and reproduces them by direct ancestral sampling. We call this scheme MCMC teaching. We show that the cooperative algorithm can learn highly realistic generative models.

研究の動機と目的

  • 画像モデリングを目的としたエネルギーベース記述子ネットワークと潜在変数生成器ネットワークを共同で学習する協調学習アルゴリズムの開発。
  • 別々に学習した場合に高変動性の画像データに対して困難を伴う、深層生成モデルの学習課題の克服。
  • MCMCを介した相互知識蒸留を可能にすることで、モード崩壊を回避するGANの代替手法の提供。
  • 2つのモデル間でMCMCサンプリングと勾配更新を交互に実行することにより、安定的かつ尤度に基づく学習の実現。
  • 分類ラベル、テキスト、スケッチからの画像生成といった条件付き生成タスクへのフレームワークの一般化。

提案手法

  • 記述子ネットワークは、画像エネルギーを計算する下位から上位へのConvNetであり、エネルギーベースモデルを形成する。
  • 生成器ネットワークは、祖先サンプリングを介して潜在因子から画像へマッピングする上位から下位へのConvNetである。
  • 協調学習は、(1) 生成器が合成した例から記述子のMCMCを初期化し、(2) MCMC遷移に基づいて生成器を更新する、というステップを交互に繰り返す。
  • MCMCによる学習指導により、生成器はMCMC遷移を学習・再現可能となり、記述子のサンプリングダイナミクスを効果的に蒸留する。
  • 記述子の学習には、実データではなく生成器の出力を初期化点とする修正された対照的勾配降下法が用いられる。
  • 両モデルの尤度最大化学習を組み合わせることで、MCMCサンプリングと勾配更新の相互ブートストラップが可能となる。

実験結果

リサーチクエスチョン

  • RQ1記述子ネットワークと生成器ネットワークの協調学習は、独立学習と比較して画像生成品質を向上させることができるか?
  • RQ2MCMCサンプリングを用いることで、生成器ネットワークが複雑な画像構造を再現できるか?
  • RQ3協調学習スキームは、GANで一般的な失敗モードであるモード崩壊を回避できるか?
  • RQ4記述子ネットワークのMCMCダイナミクスが、生成器に効果的に蒸留可能か?
  • RQ5協調フレームワークは、テキストから画像への生成やスケッチから画像への生成といった条件付き生成タスクに一般化可能か?

主な発見

  • 協調学習アルゴリズムは、動的テクスチャを含む非常に現実的な画像生成モデルを効果的に学習した。
  • 動的テクスチャ生成において、PSNR 19.407、SSIM 0.5988を達成し、LDS(19.148、0.5939)、HOSVD(18.392、0.4573)および他のベースラインを上回った。
  • 安定的尤度ベース学習プロセスのおかげで、モード崩壊というGANモデルの一般的な問題を回避した。
  • 生成器ネットワークは、直接的な祖先サンプリングによりMCMC遷移を再現し、記述子のサンプリング行動を効果的に蒸留した。
  • 記述子ネットワークは有限の実データから学習するが、生成器はほぼ無限に近い数の合成データから学習するため、頑健な一般化が可能となった。
  • フレームワークは条件付き生成に一般化可能であり、分類ラベル、テキスト記述、スケッチからの画像生成といったタスクを実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。