Skip to main content
QUICK REVIEW

[论文解读] LDLT L-Lipschitz Network Weight Parameterization Initialization

Marius Juston, R.S. Sreenivas|arXiv (Cornell University)|Jan 13, 2026
Stochastic Gradient Optimization Techniques被引用 0
一句话总结

这篇论文在高斯初始化下,利用 Wishart 分布和 zonal 多项式推导出基于 LDLT 的 ℒ- Lipschitz 层的精确边际输出方差,并讨论初始化参数如何影响方差保持和训练动力学。

ABSTRACT

We analyze initialization dynamics for LDLT-based $\mathcal{L}$-Lipschitz layers by deriving the exact marginal output variance when the underlying parameter matrix $W_0\in \mathbb{R}^{m imes n}$ is initialized with IID Gaussian entries $\mathcal{N}(0,σ^2)$. The Wishart distribution, $S=W_0W_0^ op\sim\mathcal{W}_m(n,σ^2 \boldsymbol{I}_m)$, used for computing the output marginal variance is derived in closed form using expectations of zonal polynomials via James' theorem and a Laplace-integral expansion of $(α\boldsymbol{I}_m+S)^{-1}$. We develop an Isserlis/Wick-based combinatorial expansion for $\operatorname{\mathbb{E}}\left[\operatorname{tr}(S^k) ight]$ and provide explicit truncated moments up to $k=10$, which yield accurate series approximations for small-to-moderate $σ^2$. Monte Carlo experiments confirm the theoretical estimates. Furthermore, empirical analysis was performed to quantify that, using current He or Kaiming initialization with scaling $1/\sqrt{n}$, the output variance is $0.41$, whereas the new parameterization with $10/ \sqrt{n}$ for $α=1$ results in an output variance of $0.9$. The findings clarify why deep $\mathcal{L}$-Lipschitz networks suffer rapid information loss at initialization and offer practical prescriptions for choosing initialization hyperparameters to mitigate this effect. However, using the Higgs boson classification dataset, a hyperparameter sweep over optimizers, initialization scale, and depth was conducted to validate the results on real-world data, showing that although the derivation ensures variance preservation, empirical results indicate He initialization still performs better.

研究动机与目标

  • 为基于 LDLT 的 ℒ-Lipschitz 网络的权重初始化动态提供动机与分析。
  • 推导高斯初始化的 LDLT 层的精确边际输出方差。
  • 展示初始化参数 α 和 σ^2 如何影响方差保持与梯度特性。
  • 提供实用的初始化指南,以减轻深度 ℒ-Lipschitz 网络中的信息损失。

提出的方法

  • 将 LDLT 层的前向传递建模为 y = γ W0 (α I + W0^T W0)^(-1/2) x,并计算 Var[y]。
  • 给出 Cov[y|W0] 并使用 Woodbury 恒等式将其与 (α I + WW^T)^(-1) 联系起来。
  • 将 Var[y] 表示为 E_W0[Tr((α I + S)^(-1))],其中 S = W0 W0^T,S ~ Wishart_m(n, σ^2 I)。
  • 使用拉普拉斯积分和矩量展开,通过 James 的 zonal 多项式结果和 Wick/Isserlis 展开将 E[Tr(S^k)] 计算至 k=10。
  • 给出对小到中等 σ^2 的截断级数近似,并用蒙特卡洛方法进行验证。
  • 讨论方差缩放和梯度折衷,包括对初始化尺度的影响(例如 10/√n)以及 α、γ 的影响。
Figure 1 : Variance difference estimation for weight parameterization sizes from 2 to 9
Figure 1 : Variance difference estimation for weight parameterization sizes from 2 to 9

实验结果

研究问题

  • RQ1在高斯初始化下,基于 LDLT 的 ℒ-Lipschitz 层的精确边际方差是什么?
  • RQ2初始化超参数 α、γ 和 σ^2 如何影响 LDLT 网络中的方差保持与梯度动力学?
  • RQ3LDLT 参数化在深度下是否可以实现单位输出方差,其局限性是什么?
  • RQ4截断的 Wishart 矩量展开在实际中与蒙特卡洛估计相比如何?
  • RQ5在真实数据集上的经验结果是否与常见数据集和优化器下的方差保持理论一致?

主要发现

  • LDLT 层的精确边际方差可表达为 Var[y] = γ^2/m (m − α E[Tr((α I_m + S)^(-1))]), 其中 S ~ Wishart_m(n, σ^2 I)。
  • 采用精确的 Laplace 表示和高阶 Wishart 矩量来近似 E[Tr(S^k)],直到 k = 10,得到对小到中等 σ^2 的方差估计的精确性。
  • 方差随 σ^2 变化,且需要较大的 σ^2 才接近单位方差,但过大的 σ^2 可能因 Lipschitz 流形的饱和而导致梯度消失。
  • 经验上,使用 He/Kaiming 风格初始化(尺度为 1/√n)时输出方差约为 0.41,而尺度为 10/√n(α = 1)时方差约为 0.9,显示方差保持潜力。
  • 在 Higgs 数据集上,方差保持理论不总是转化为优越的经验性能;在某些条件下,He 初始化在实践中仍可能表现更好。
  • 反向传播分析与前向结果一致,梯度呈现相似的方差行为。
Figure 2 : Variance difference estimation for weight parameterization sizes from 10 to 90
Figure 2 : Variance difference estimation for weight parameterization sizes from 10 to 90

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。