QUICK REVIEW

[論文レビュー] Opening the black box of deep learning

Dian Lei, Xiaoxiao Chen|arXiv (Cornell University)|May 22, 2018

Generative Adversarial Networks and Image Synthesis参考文献 32被引用数 24

ひとこと要約

本稿では、量子力学および統計力学に従う物理的システムとしての深層学習を説明する物理的枠組みを提案する。畳み込み、プーリング、活性化関数といった基本的演算が、物理的原理から自然に導かれることが示され、深層学習の成功は普遍的な物理法則との整合性に起因することを明らかにする。これにより、その有効性と一般化能力に対する統一的かつ理論的根拠が与えられる。

ABSTRACT

The great success of deep learning shows that its technology contains profound truth, and understanding its internal mechanism not only has important implications for the development of its technology and effective application in various fields, but also provides meaningful insights into the understanding of human brain mechanism. At present, most of the theoretical research on deep learning is based on mathematics. This dissertation proposes that the neural network of deep learning is a physical system, examines deep learning from three different perspectives: microscopic, macroscopic, and physical world views, answers multiple theoretical puzzles in deep learning by using physics principles. For example, from the perspective of quantum mechanics and statistical physics, this dissertation presents the calculation methods for convolution calculation, pooling, normalization, and Restricted Boltzmann Machine, as well as the selection of cost functions, explains why deep learning must be deep, what characteristics are learned in deep learning, why Convolutional Neural Networks do not have to be trained layer by layer, and the limitations of deep learning, etc., and proposes the theoretical direction and basis for the further development of deep learning now and in the future. The brilliance of physics flashes in deep learning, we try to establish the deep learning technology based on the scientific theory of physics.

研究の動機と目的

純粋な数学的根拠ではなく、物理学に基づく理論的基盤を提供することで、深層学習の『ブラックボックス』問題を解決すること。
深層学習がなぜ機能するのか、特に深層構造がなぜ必要なのかを、量子力学および統計力学の原理を用いて説明すること。
畳み込み、プーリング、正規化などの主要な深層学習コンponentsを、恣意的なアルゴリズム的選択ではなく、物理的プロセスとして統一的に理解すること。
エネルギー、エントロピー、対称性といった物理法則に根ざした科学的法則に基づいて、深層学習の将来の発展の理論的基盤を確立すること。
自然法則に従う物理的データは本質的に学習可能であるが、記号的データとは異なり、深層ネットワークが物理的データを学習可能であることを示すこと。

提案手法

ニューラルネットワークを、入射波関数（準粒子）に応答する量子系としてモデル化し、量子重ね合わせおよび相互作用ハミルトニアンに従う物理的システムとみなすこと。
入力データを波関数とみなし、ネットワークの活性化を量子測定の結果から導かれる確率分布とみなす。ネットワークは、粒子数や運動量といった物理的観測量を測定することを行う。
相互作用ポテンシャルを介した準粒子励起数の測定として畳み込みを物理的演算として導出する。これは、量子散乱過程に類似している。
交差エントロピーなどのコスト関数を統計力学におけるエントロピーに基づく目的関数として定式化し、最適化をエネルギー最小化や最大エントロピーの物理的原理と結びつける。
縮重群の概念および対称性原理（局所性、並進不変性など）を用いて、階層的特徴抽出および一般化のメカニズムを説明する。
微視的（CNNに類似）および巨視的（RBMに類似）モデルの区別を行う：CNNは量子測定プロセスとして、RBMは多数の微視的状態の統計的平均として扱う。

実験結果

リサーチクエスチョン

RQ1なぜ深層学習は深さを必要とするのか？深さを必然的に生じさせる物理的原理は何か？
RQ2畳み込み、ReLU、プーリング、正規化といった標準的な深層学習演算は、どのように物理法則から導かれるのか？
RQ3なぜ深層ネットワークは物理的データに対して一般化がうまくいくが、記号的または非物理的データに対しては失敗するのか？
RQ4分類タスクにおける交差エントロピーというコスト関数の選択の物理的根拠は何か？
RQ5畳み込みニューラルネットワークの成功が、アルゴリズム的トリックではなく、物理的測定プロセスの自然な結果であると説明できるか？

主な発見

畳み込みニューラルネットワークは、準粒子励起数の物理的測定を実行しており、畳み込みカーネルは相互作用ハミルトニアンに対応する。これにより、物理的特徴の抽出が有効であることが説明される。
深層学習の成功は偶然ではなく、局所性、対称性、エネルギー最小化といった根本的な物理法則との整合性に起因する。これらは現実世界のデータに内在している。
交差エントロピーをコスト関数として用いることは、統計力学におけるエントロピーに対応するため正当化され、最適化が不規則性と情報の物理的原理と結びつく。
深層学習の一般化能力は、現実世界のデータ（物理的データ）が自由パラメータが少ない単純な物理モデルに従うため、本質的に深層ネットワークで学習可能であることに起因する。
本稿のフレームワークは、エンドツーエンドの学習が層別にではなく、一貫した量子測定プロセスとして扱えることを説明する。
本フレームワークは、位置に依存するニューロンやハイブリッドアンサンブルネットワークといった、物理的整合性に基づいた新たな研究分野を予測し、実験的検証が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。