Skip to main content
QUICK REVIEW

[论文解读] Eigenvalue distribution of nonlinear models of random matrices

Lucas Benigni, Sandrine Péché|arXiv (Cornell University)|Apr 5, 2019
Random Matrices and Applications参考文献 26被引用 25
一句话总结

本文建立了深度神经网络中非线性随机矩阵系综的渐近特征值分布,其中矩阵乘积通过实解析激活函数进行非线性变换。该研究将先前关于高斯矩阵的结果扩展至次高斯权重,并证明在高维极限下,经验特征值分布收敛于由激活函数及输入/输出维度决定的确定性极限,且对多层架构中的矩收敛给出了显式方差界。

ABSTRACT

This paper is concerned with the asymptotic empirical eigenvalue distribution of a non linear random matrix ensemble. More precisely we consider $M= \frac{1}{m} YY^*$ with $Y=f(WX)$ where $W$ and $X$ are random rectangular matrices with i.i.d. centered entries. The function $f$ is applied pointwise and can be seen as an activation function in (random) neural networks. We compute the asymptotic empirical distribution of this ensemble in the case where $W$ and $X$ have sub-Gaussian tails and $f$ is real analytic. This extends a previous result where the case of Gaussian matrices $W$ and $X$ is considered. We also investigate the same questions in the multi-layer case, regarding neural network applications.

研究动机与目标

  • 表征深度学习架构中非线性随机矩阵模型的渐近经验特征值分布。
  • 将先前关于高斯随机矩阵的结果扩展至具有实解析激活函数的次高斯权重矩阵。
  • 在高维渐近下分析多层神经网络模型的谱性质。
  • 在深度架构中建立经验特征值分布的矩收敛性及方差界。

提出的方法

  • 通过允许图的图解展开计算矩的渐近特征值分布。
  • 应用浓度不等式和次高斯尾部界以控制矩阵元素的波动。
  • 采用多项式逼近解析激活函数,以处理极限中的非线性。
  • 通过识别图对之间的非零协方差项来分析矩的方差。
  • 推导经验矩方差的界,表明其收敛至类似 Marchenko-Pastur 的极限。
  • 采用递归的逐层分析方法,将单层模型的结果推广至多层模型。

实验结果

研究问题

  • RQ1当权重为次高斯而非高斯时,非线性随机矩阵的经验特征值分布在高维极限下的行为如何?
  • RQ2矩阵 $ \frac{1}{m} Y^*Y $ 的极限谱分布是什么,其中 $ Y = f(WX) $,$ f $ 为实解析函数,且 $ W,X $ 的元素为独立同分布的次高斯分布?
  • RQ3在渐近 regime 下,深度神经网络的谱特性如何依赖于激活函数的选择?
  • RQ4在多层模型中,经验矩收敛至其确定性极限的速率是多少?
  • RQ5经验特征值矩的方差能否以网络深度和激活函数特性为参数进行有界?

主要发现

  • 即使 $ W $ 和 $ X $ 为次高斯分布,$ \frac{1}{m} Y^*Y $ 的渐近经验特征值分布仍收敛至依赖于激活函数 $ f $ 的确定性极限。
  • 对于次数不超过 $ \frac{1}{L-1} \log n_1 / \log \log n_1 $ 的多项式激活函数,其极限矩与具有适当形状参数的 Marchenko-Pastur 分布一致。
  • 第 $ q $ 阶经验矩的方差被有界为 $ O\left( \frac{k^{4L+4}}{n_0^2} \right) $,在适当缩放下确保收敛。
  • 对于有界的解析 $ f $,真实与近似矩阵元素之间的差异以超过任意多项式速度衰减,从而保证矩的收敛。
  • 矩方差的主要贡献来自最后两层的识别,特别是 $ X $-元素之间的配对,这归因于次高斯尾部衰减。
  • 以高概率,每一层的加权和保持有界,从而确保谱分布的稳定性和收敛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。