Skip to main content
QUICK REVIEW

[論文レビュー] Deep Learning the Ising Model Near Criticality

Alan Morningstar, Roger G. Melko|arXiv (Cornell University)|Aug 15, 2017
Generative Adversarial Networks and Image Synthesis参考文献 17被引用数 55
ひとこと要約

この論文は shallow と deep generative models (RBMs およびその深部拡張) を用いて臨界近傍の 2D アイジングモデルを学習することを比較し、精度は主に最初の隠れ層のサイズに依存し、ネットワークの深さには大きく依存しないことを示している。

ABSTRACT

It is well established that neural networks with deep architectures perform better than shallow networks for many tasks in machine learning. In statistical physics, while there has been recent interest in representing physical data with generative modelling, the focus has been on shallow neural networks. A natural question to ask is whether deep neural networks hold any advantage over shallow networks in representing such data. We investigate this question by using unsupervised, generative graphical models to learn the probability distribution of a two-dimensional Ising system. Deep Boltzmann machines, deep belief networks, and deep restricted Boltzmann networks are trained on thermal spin configurations from this system, and compared to the shallow architecture of the restricted Boltzmann machine. We benchmark the models, focussing on the accuracy of generating energetic observables near the phase transition, where these quantities are most difficult to approximate. Interestingly, after training the generative networks, we observe that the accuracy essentially depends only on the number of neurons in the first hidden layer of the network, and not on other model details such as network depth or model type. This is evidence that shallow networks are more efficient than deep networks at representing physical probability distributions associated with Ising systems near criticality.

研究の動機と目的

  • 臨界近傍の物理分布に対して、深層ニューラルネットワークが浅層ネットワークより表現効率を提供するかを評価する。
  • さまざまな生成モデルが2D Isingモデルの物理量(エネルギーと熱容量)をどれだけ再現できるかを定量化する。
  • 臨界点近傍で再構成精度に対するネットワークアーキテクチャ(深さと幅)の影響を明らかにする。

提案手法

  • 2D Isingモデルのモンテカルロサンプルに対して、浅いおよび深い生成モデル(RBM、DBM、DBN、DRBN)を訓練する。
  • 訓練中の重みとバイアスの更新には CD-k 対比発散を用いる。
  • 訓練済みモデルを評価するにはサンプルを生成し、エネルギーや熱容量などの観測量推定値を計算する。
  • 全体リソース(隠れユニット数)を同等に保ちつつアーキテクチャ間の性能を比較し、最初の隠れ層の幅の依存性を分析する。
  • Tc 付近での正確さを評価するため、厳密モンテカルロ値を参照する(T_c ≈ 2.2693)。

実験結果

リサーチクエスチョン

  • RQ1臨界点近傍でIsing分布を表現する精度を高めるには、ネットワークの深さを増やすべきか?
  • RQ2生成された物理観測量の精度は、最初の隠れ層のサイズにより敏感か、それとも他のアーキテクチャの詳細により敏感か?
  • RQ3この物理タスクに対して、深層生成モデル(DBM/DBN/DRBN)は浅いRBMより利点があるか?
  • RQ4温度によって性能はどう変化するか、特にTc近傍で?
  • RQ5このIsingモデルの文脈で、正確な表現のためのサイトあたりの隠れユニットの上限はどれくらいか?

主な発見

  • 最初の層の隠れユニットを増やすと、物理量(EとC)の再現精度が向上する。
  • 総隠れユニット数が同じでも、同等のリソース配分では深い2モデルは浅いRBMより性能が劣ることがあり、深さが臨界近傍で明確な効率向上を提供しないことを示す。
  • 固定された最初の層サイズでは、2番目の隠れ層を増やしても一貫して精度が向上するとは限らない。
  • アーキテクチャが層サイズで一致している場合、モデルタイプ(RBM vs DBM/DBN/DRBN)による精度への影響は小さい。
  • N_h1 = N(完全に広い場合)のRBMは温度範囲全体で分布を正確に捉えるが、N_h1 が小さい場合 Tc 付近で失敗することがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。