[论文解读] Understanding Priors in Bayesian Neural Networks at the Unit Level
本文研究了具有高斯权重先验的贝叶斯神经网络中隐藏单元的先验分布,表明单元激活从第一层的高斯分布逐渐演变为随深度增加而重尾化的子威布尔分布,具体而言,第ℓ层的尾部参数为θ = ℓ/2。这揭示了在标准权重衰减之外,单元层面存在的深度依赖性正则化效应。
We investigate deep Bayesian neural networks with Gaussian weight priors and a class of ReLU-like nonlinearities. Bayesian neural networks with Gaussian priors are well known to induce an L2, "weight decay", regularization. Our results characterize a more intricate regularization effect at the level of the unit activations. Our main result establishes that the induced prior distribution on the units before and after activation becomes increasingly heavy-tailed with the depth of the layer. We show that first layer units are Gaussian, second layer units are sub-exponential, and units in deeper layers are characterized by sub-Weibull distributions. Our results provide new theoretical insight on deep Bayesian neural networks, which we corroborate with simulation experiments.
研究动机与目标
- 理解在高斯权重先验下,深层贝叶斯神经网络中隐藏单元的边缘先验分布。
- 表征单元激活的尾部行为如何随网络深度变化。
- 揭示一种此前未被观察到的、仅在单元层面起作用而非仅在权重层面起作用的正则化机制。
- 为在ReLU类非线性激活下深层激活呈现重尾特性的理论基础提供支持。
- 将所得的单元级先验与正则化和稀疏性的广泛概念联系起来。
提出的方法
- 对全连接前馈网络中预激活与后激活的边缘先验分布进行理论分析。
- 在激活函数φ满足弱条件的前提下,推导出第ℓ层单元激活的子威布尔分布的尾部参数θ = ℓ/2。
- 利用特征函数和矩生成函数分析,建立子威布尔性质。
- 证明定理3.1,表明ReLU类激活可导致子威布尔单元,且其尾部随深度增加而变重。
- 通过使用100层MLP、ReLU激活和标准正态输入的模拟实验,验证理论尾部分布行为。
- 通过在第1、2、3、10和100层的预激活先验分布中抽取10⁵个样本的经验直方图,进行实证验证。
实验结果
研究问题
- RQ1在具有高斯权重的贝叶斯神经网络中,隐藏单元激活的先验分布如何随网络深度增加而演变?
- RQ2单元的边缘先验分布的功能形式是什么?它如何依赖于网络深度?
- RQ3是否能从单元层面而非仅从权重层面更好地理解高斯先验的正则化效应?
- RQ4ReLU类非线性如何影响深层贝叶斯网络中单元激活的尾部行为?
- RQ5所推导的子威布尔先验与诱导稀疏性的正则化机制之间有何关联?
主要发现
- 第一层单元的先验分布为高斯分布,对应尾部参数θ = 1/2的子威布尔分布。
- 第二层单元服从子高斯分布,等价于尾部参数θ = 1的子威布尔分布。
- 深层单元由尾部参数θ = ℓ/2的子威布尔分布表征,且尾部随深度增加而更重。
- 第100层隐藏单元表现出极平坦、重尾的分布,对应尾部参数θ = 50的子威布尔分布,经经验直方图验证。
- 该理论结果适用于在无穷远处呈线性增长的激活函数(如ReLU),但不适用于有界函数(如sigmoid或tanh)。
- 研究结果表明存在一种单元层面的深度依赖性正则化机制,可能解释深层贝叶斯网络中泛化性能的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。