Skip to main content
QUICK REVIEW

[論文レビュー] Convolution by Evolution: Differentiable Pattern Producing Networks

Chrisantha Fernando, Dylan Banarse|arXiv (Cornell University)|Jun 8, 2016
Generative Adversarial Networks and Image Synthesis参考文献 30被引用数 24
ひとこと要約

この論文では、勾配降下法による重み学習と併せてネットワークトポロジーを進化させるハイブリッドフレームワークである微分可能パターン生成ネットワーク(DPPN)を紹介する。DPPNは、ノイズ除去オートエンコーダーの157,684パラメータをわずか187パラメータに圧縮し、Omniglotデータセットにおいて直接符号化されたネットワークよりも優れた一般化性能を達成した。

ABSTRACT

In this work we introduce a differentiable version of the Compositional Pattern Producing Network, called the DPPN. Unlike a standard CPPN, the topology of a DPPN is evolved but the weights are learned. A Lamarckian algorithm, that combines evolution and learning, produces DPPNs to reconstruct an image. Our main result is that DPPNs can be evolved/trained to compress the weights of a denoising autoencoder from 157684 to roughly 200 parameters, while achieving a reconstruction accuracy comparable to a fully connected network with more than two orders of magnitude more parameters. The regularization ability of the DPPN allows it to rediscover (approximate) convolutional network architectures embedded within a fully connected architecture. Such convolutional architectures are the current state of the art for many computer vision applications, so it is satisfying that DPPNs are capable of discovering this structure rather than having to build it in by design. DPPNs exhibit better generalization when tested on the Omniglot dataset after being trained on MNIST, than directly encoded fully connected autoencoders. DPPNs are therefore a new framework for integrating learning and evolution.

研究の動機と目的

  • 進化的なトポロジー探索と勾配ベースの重み学習を統合し、効率的なニューラルネットワーク圧縮を実現すること。
  • 標準的なCPPNを超えてデータ効率性と一般化性能を向上させるために、重み学習を可能にする。
  • アーキテクチャの事前知識なしに畳み込みアーキテクチャのようなインダクティブバイアスを発見すること。
  • DPPNが直接符号化されたネットワークよりも一般化性能およびパラメータ効率性において優れているかどうかを評価すること。
  • 学習と進化を統合するためのLamarck的進化の有効性を検討すること。

提案手法

  • 学習された重みが世代間で継承されるLamarck的進化アルゴリズムを用いることで、急速な収束を実現する。
  • ネットワークトポロジーはNEATによって進化させ、重みは誤差逆伝搬法と勾配降下法で最適化する。
  • CPPNに類似したアーキテクチャが、座標入力(x, y, 距離, バイアス)を出力ピクセル値または重み行列にマップし、周期的関数やガウス関数などの活性化関数を用いる。
  • DPPNは、パターン生成によって完全な重み行列を生成する低次元のゲノタイプでオートエンコーダーの重みを符号化する。
  • 交差と変異がトポロジーおよび初期重みに適用され、MNISTでの再構成誤差によって適応度が評価される。
  • このフレームワークは、大規模ネットワークのHyperNEAT風の間接的符号化と、オートエンコーダー重みの直接再構成の両方をサポートする。

実験結果

リサーチクエスチョン

  • RQ1微分可能で進化的なアプローチは、性能を維持したまま大規模ニューラルネットワークを圧縮できるか?
  • RQ2勾配ベースの学習と進化的なトポロジー探索を統合することで、標準的なCPPNよりも優れた一般化性能が得られるか?
  • RQ3DPPNは、完全接続ネットワークにおいても畳み込みアーキテクチャのような既知のインダクティブバイアスを再発見できるか?
  • RQ4Lamarck的学習方式は、ダーウィニスム的およびBaldwin的変種と比較して収束性および性能面で優れているか?
  • RQ5MNISTで学習した後、DPPNはOmniglotのような分布外データセットにどの程度一般化できるか?

主な発見

  • 187パラメータのDPPNは、MNISTテストセットでバイナリクロスエントロピー(BCE)0.09を達成し、157,684パラメータのオートエンコーダーを圧縮した。
  • DPPNは、視網膜のゴンギャリオン細胞に類似した「オンセンター」と「オフセンター」の受容野を模倣した畳み込み型の重みパターンを再発見した。
  • 1,000トーナメント経過後にDPPNはテストセットMSEを0.01に低下させ、交差が再構成品質を顕著に向上させた(交差なしではMSE 0.03、ありでは0.003)。
  • Omniglotデータセットへの一般化ではBCE 0.121を達成し、同等のパラメータ数を持つ直接符号化ネットワークを上回った。
  • DPPNで符号化されたネットワークは、直接符号化された100ノードネットワーク(BCE > 0.24)よりも低いBCE(0.096)を達成し、優れたパラメータ効率性を示した。
  • DPPNは、畳み込みに向けたアーキテクチャ的バイアスが一切ない完全接続オートエンコーダーのデコーディング層においても、28×28の畳み込み構造を発見した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。