[论文解读] Exponential expressivity in deep neural networks through transient chaos
本文展示了深度随机网络中的从有序到混沌的相变,表明在混沌状态下,深度诱导的动态会产生指数级的表达能力与流形解缠,得到均场/黎曼几何框架的验证。
We combine Riemannian geometry with the mean field theory of high dimensional chaos to study the nature of signal propagation in generic, deep neural networks with random weights. Our results reveal an order-to-chaos expressivity phase transition, with networks in the chaotic phase computing nonlinear functions whose global curvature grows exponentially with depth but not width. We prove this generic class of deep random functions cannot be efficiently computed by any shallow network, going beyond prior work restricted to the analysis of single functions. Moreover, we formalize and quantitatively demonstrate the long conjectured idea that deep networks can disentangle highly curved manifolds in input space into flat manifolds in hidden space. Our theoretical analysis of the expressive power of deep networks broadly applies to arbitrary nonlinearities, and provides a quantitative underpinning for previously abstract notions about the geometry of deep functions.
研究动机与目标
- 在深度网络中激励并形式化表达能力的概念,超越具体非线性函数。
- 建立一个统一框架,分析深度如何影响随机网络中的信号传播与几何结构。
- 定量表征从有序到混沌的转变及其对曲率与流形解缠的影响。
提出的方法
- 将黎曼几何与动力学均场理论结合,用于研究随机深度网络。
- 引入长度映射 q^l = (1/N_l) ∑_i h_i^{l2} 并推导迭代映射 q^l = V(q^{l-1} | σ_w, σ_b)。
- 推导支配 q^{l}_{12} 的逐层相关映射 C,以及其不动点 c^* 与斜率 χ_1。
- 分析通过各层传播的一维流形,并通过切圆与高斯映射定义外在曲率 κ(kappa)。
- 得到外在曲率与欧几里得度量的演化方程:ar{g}^{E,l} 与 (ar{rκ}^l)^2,含 χ_1 与 χ_2,显示混沌状态下曲率的指数级增长。
实验结果
研究问题
- RQ1深度随机网络是否展现出浅层网络无法匹配的表达能力优势?
- RQ2深度如何影响随机网络中信号传播的几何性,包括长度与曲率?
- RQ3是否在权重/偏置统计量的空间中存在一个支配跨层信息处理的有序到混沌的转变?
- RQ4通过深度,是否能够将高度曲率的输入流形解缠为隐藏空间中的更平坦表示?
- RQ5局部与全局曲率度量如何随深度演化,并在混沌与有序相之间有何差异?
主要发现
- 存在由 σ_w 和 σ_b 决定的有序到混沌的表达能力相变,其中混沌动态导致全局曲率随深度呈指数增长。
- 在混沌相,流形的欧几里得长度随深度指数增长,而曲率被维持并通过 χ_2 累积,导致隐藏空间的指数级膨胀。
- 在混沌状态的深度网络能够将高度曲率的输入流形解缠为输出层的更平坦表示,从而实现指数级复杂函数。
- 浅层网络无法实现指数级表达能力,某些单调非线性情况下,欧几里得长度与宽度之比至多线性增长。
- 判决边界的主曲率可以随深度呈指数增长,意味着更复杂、由深度支持的分类边界。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。