[论文解读] Deep Learning Theory Review: An Optimal Control and Dynamical Systems Perspective
一项理论综述,通过动力系统和均场最优控制框架来阐释深度学习,将DNN的传播与训练动力学与稳定性、优化以及泛化联系起来。
Attempts from different disciplines to provide a fundamental understanding of deep learning have advanced rapidly in recent years, yet a unified framework remains relatively limited. In this article, we provide one possible way to align existing branches of deep learning theory through the lens of dynamical system and optimal control. By viewing deep neural networks as discrete-time nonlinear dynamical systems, we can analyze how information propagates through layers using mean field theory. When optimization algorithms are further recast as controllers, the ultimate goal of training processes can be formulated as an optimal control problem. In addition, we can reveal convergence and generalization properties by studying the stochastic dynamics of optimization algorithms. This viewpoint features a wide range of theoretical study from information bottleneck to statistical physics. It also provides a principled way for hyper-parameter tuning when optimal control theory is introduced. Our framework fits nicely with supervised learning and can be extended to other learning problems, such as Bayesian learning, adversarial training, and specific forms of meta learning, without efforts. The review aims to shed lights on the importance of dynamics and optimal control when developing deep learning theory.
研究动机与目标
- 提供一个统一的动力系统与最优控制框架,以理解深度神经网络。
- 利用均场理论分析信息在DNN各层中的传播。
- 将优化算法重新表述为控制器,从而将训练问题构建为一个最优控制问题。
- 通过优化方法的随机动力学研究收敛性与泛化性。
- 讨论该框架向其他学习范式的扩展,以及对架构和超参数设计的影响。
提出的方法
- 将DNN建模为离散时间非线性动力系统,层为时间步。
- 使用均场理论描述跨层的激活值与预激活值分布,并推导确定性的分层动力学。
- 通过雅可比样本征值(chi_q* 和 chi_c*)以及深度尺度 xi_q* 与 xi_c* 定义并分析稳定性,以区分有序、临界和混沌相。
- 将训练动力学与均场 Gram/NTK 表示相关联,以给出梯度基方法全球收敛的条件。
- 将DNN训练表述为一个最优控制问题,包括均场扩展,以推导 Pontryagin 的最小原理(PMP)及其与反向传播的联系。
- 讨论与动态规划/HJB 的联系,并展示如何利用控制理论优化优化超参数。
实验结果
研究问题
- RQ1如何在动力系统框架下分析DNN训练和信息传播?
- RQ2哪些初始化和深度条件能确保可训练性和信息在深层网络中的流动?
- RQ3用于训练的优化算法是否可以被精确地重新表述为控制器,从而通过最优控制理论实现原理性设计?
- RQ4均场近似如何与过参数化网络的收敛性和泛化性相关?
- RQ5该框架向贝叶斯学习、对抗训练或元学习等其他学习范式的扩展是什么?
主要发现
- 均场分析给出激活值与预激活值的确定性分层动力学,从而对信息传播进行全局表征。
- 具有临界线的相图将有序(稳定、可训练)与混沌(不稳定)区分开来,预测权重和偏置方差的函数下的可训练性。
- 在广泛条件下,过参数化网络在训练过程中保持初始化样统计量,支持与 Gram/NTK 动力学相关的全局收敛结果。
- Gram 矩阵/NTK 视角在宽度足够大且 NTK 的最小特征值远离零时,显示到全局最小值的线性收敛。
- 训练可以被表述为一个均场最优控制问题,支持 PMP 与 HJB 基分析,并从控制理论中提出自适应超参数策略。
- 反向传播作为PMP的离散时间体现而出现,直接将动力系统理论与标准神经网络训练过程联系起来。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。