QUICK REVIEW

[論文レビュー] Deep Learning Theory Review: An Optimal Control and Dynamical Systems Perspective

Guan-Horng Liu, Evangelos A. Theodorou|arXiv (Cornell University)|Aug 28, 2019

Gaussian Processes and Bayesian Inference参考文献 107被引用数 47

ひとこと要約

ダイナミクス系と平均場最適制御を通じて深層学習を理論的に概説し、DNNの伝播と訓練動作を安定性・最適化・一般化に結び付ける理論的サーベイ。

ABSTRACT

Attempts from different disciplines to provide a fundamental understanding of deep learning have advanced rapidly in recent years, yet a unified framework remains relatively limited. In this article, we provide one possible way to align existing branches of deep learning theory through the lens of dynamical system and optimal control. By viewing deep neural networks as discrete-time nonlinear dynamical systems, we can analyze how information propagates through layers using mean field theory. When optimization algorithms are further recast as controllers, the ultimate goal of training processes can be formulated as an optimal control problem. In addition, we can reveal convergence and generalization properties by studying the stochastic dynamics of optimization algorithms. This viewpoint features a wide range of theoretical study from information bottleneck to statistical physics. It also provides a principled way for hyper-parameter tuning when optimal control theory is introduced. Our framework fits nicely with supervised learning and can be extended to other learning problems, such as Bayesian learning, adversarial training, and specific forms of meta learning, without efforts. The review aims to shed lights on the importance of dynamics and optimal control when developing deep learning theory.

研究の動機と目的

深層ニューラルネットワークを理解するための統一されたダイナミクス系と最適制御の枠組みを提供する。
平均場理論を用いてDNN層を通る情報伝播を分析する。
最適化アルゴリズムをコントローラとして再構成し、訓練を最適制御問題として定式化する。
最適化手法の確率的動力学を通じて収束と一般化を調査する。
他の学習パラダイムへの拡張とアーキテクチャおよびハイパーパラメータ設計への含意を議論する。

提案手法

層を時間ステップとした離散時間非線形ダイナミクス系としてDNNをモデル化する。
層間の活性化と前活性化の分布を平均場理論で記述し、決定論的な層ごとの動力学を導出する。
ヤコビ行列様の固有値（chi_q* および chi_c*）と深さスケール xi_q* および xi_c* によって安定性を定義・分析し、秩序相・臨界相・カオス相を識別する。
訓練動力学を平均場Gram/NTK表現と関連付け、勾配ベース法の全体収束条件を示す。
平均場拡張を含むDNN訓練を最適制御問題として定式化し、Pontryagin’s Minimum Principle (PMP) を導出し、バックプロパゲーションとの関連を示す。
動的計画法/HJB への関連を議論し、最適化ハイパーパラメータを制御理論で最適化できることを示す。

実験結果

リサーチクエスチョン

RQ1DNN訓練と情報伝播をダイナミクス系フレームワーク内でどのように分析できるか。
RQ2初期化と深さの条件は、訓練可能性と情報の伝播を深いネットワークにおいてどのように保証するか。
RQ3訓練の最適化アルゴリズムを厳密にコントローラとして再構成でき、有 principled設計を最適制御理論で可能にするか。
RQ4平均場近似は過パラメータ化ネットワークの収束と一般化性とどのように結びつくか。
RQ5ベイズ学習、敵対的訓練、メタ学習など、他の学習パラダイムへのこの枠組みの拡張は何か。

主な発見

平均場分析は活性化と前活性化の層ごとの決定論的動力学をもたらし、情報伝播の全体的特徴付けを可能にする。
臨界線を持つ相図は秩序相（安定、訓練可能）とカオス相（不安定）を分け、重みとバイアス分散の関数として訓練可能性を予測する。
広い条件下で、過パラメータ化されたネットワークは訓練中も初期化に似た統計を維持し、Gram/NTK動力学に結びつく全局収束結果を支持する。
Gram行列/NTKの視点は、NTKの最小固有値がゼロから離れて下界を満たすとき、十分大きな幅でグローバル最小値へ線形収束を示す。
訓練は平均場最適制御問題として定式化でき、PMPとHJBベースの解析を可能にし、制御理論に基づく適応的なハイパーパラメータ戦略を提案する。
Backpropagation はPMPの離散時間的表現として現れ、ダイナミクス系理論を標準的なニューラルネットワーク訓練手順に直接結びつける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。