QUICK REVIEW

[論文レビュー] LDLT L-Lipschitz Network Weight Parameterization Initialization

Marius Juston, R.S. Sreenivas|arXiv (Cornell University)|Jan 13, 2026

Stochastic Gradient Optimization Techniques被引用数 0

ひとこと要約

この論文は、Wishart分布とゾーン多項式を用いてGaussian初期化の下でLDLTベースのℒ-Lipschitz層の正確な周辺出力分散を導出し、初期化パラメータが分散保存と学習ダイナミクスに与える影響を検討します。

ABSTRACT

We analyze initialization dynamics for LDLT-based $\mathcal{L}$-Lipschitz layers by deriving the exact marginal output variance when the underlying parameter matrix $W_0\in \mathbb{R}^{m\times n}$ is initialized with IID Gaussian entries $\mathcal{N}(0,σ^2)$. The Wishart distribution, $S=W_0W_0^\top\sim\mathcal{W}_m(n,σ^2 \boldsymbol{I}_m)$, used for computing the output marginal variance is derived in closed form using expectations of zonal polynomials via James' theorem and a Laplace-integral expansion of $(α\boldsymbol{I}_m+S)^{-1}$. We develop an Isserlis/Wick-based combinatorial expansion for $\operatorname{\mathbb{E}}\left[\operatorname{tr}(S^k)\right]$ and provide explicit truncated moments up to $k=10$, which yield accurate series approximations for small-to-moderate $σ^2$. Monte Carlo experiments confirm the theoretical estimates. Furthermore, empirical analysis was performed to quantify that, using current He or Kaiming initialization with scaling $1/\sqrt{n}$, the output variance is $0.41$, whereas the new parameterization with $10/ \sqrt{n}$ for $α=1$ results in an output variance of $0.9$. The findings clarify why deep $\mathcal{L}$-Lipschitz networks suffer rapid information loss at initialization and offer practical prescriptions for choosing initialization hyperparameters to mitigate this effect. However, using the Higgs boson classification dataset, a hyperparameter sweep over optimizers, initialization scale, and depth was conducted to validate the results on real-world data, showing that although the derivation ensures variance preservation, empirical results indicate He initialization still performs better.

研究の動機と目的

LDLTベースのℒ-Lipschitzネットワークの重み初期化ダイナミクスを動機付け、分析する。
Gaussian初期化されたLDLT層の正確な周辺出力分散を導出する。
初期化パラメータαとσ^2が分散保存と勾配特性に与える影響を示す。
深いℒ-Lipschitzネットワークにおける情報損失を緩和する実用的な初期化指針を提供する。

提案手法

LDLT層のフォワードパスを y = γ W0 (α I + W0^T W0)^(-1/2) x とモデル化し Var[y] を計算する。
Cov[y|W0] を表現し、Woodbury恒等式を用いて (α I + WW^T)^(-1) に関連付ける。
Var[y] を E_W0[Tr((α I + S)^(-1))] によって表現し、S = W0 W0^T、S ~ Wishart_m(n, σ^2 I) とする。
Laplace積分とモーメント展開を用いて E[Tr(S^k)] を k = 10 まで Jamesのゾーン多項式の結果と Wick/Isserlis展開で計算する。
小〜中程度の σ^2 に対する切り捨て級数近似を提供し、モンテカルロで検証する。
分散スケーリングと勾配のトレードオフを議論し、初期化スケール（例：10/√n）や α, γ の影響を含める。

Figure 1 : Variance difference estimation for weight parameterization sizes from 2 to 9

実験結果

リサーチクエスチョン

RQ1Gaussian初期化下でのLDLTベースのℒ-Lipschitz層の正確な周辺分散はいくつか？
RQ2初期化ハイパーパラメータ α, γ, σ^2 がLDLTネットワークの分散保存と勾配ダイナミクスに与える影響は？
RQ3LDLTパラメータ化は深さで単位出力分散を達成できるか、制約は何か？
RQ4切り捨てられたWishartモーメント展開とモンテカルロ推定は実務でどの程度一致するか？
RQ5実データにおける経験的結果は、一般的なデータセットと最適化アルゴリズムに対する分散保存理論と一致するか？

主な発見

LDLT層の正確な周辺分散は Var[y] = γ^2/m (m − α E[Tr((α I_m + S)^(-1))]) に表現でき、S ~ Wishart_m(n, σ^2 I)。
正確なラプラス表現と高次のWishartモーメントを用いて E[Tr(S^k)] を k = 10 まで近似し、小〜中程度の σ^2 に対して正確な分散推定を得る。
分散は σ^2 に比例してスケーリングされ、単位分散に近づけるにはより大きな σ^2 が必要だが、極端に大きい σ^2 は Lipschitz多様体の飽和による勾配消失を招く。
実験的には He/Kaimingスタイル初期化（1/√nのスケーリング）を用いると出力分散が約0.41、10/√nスケーリング（α = 1）では分散が約0.9に近づき、分散保存の可能性を示す。
Higgsデータセットでは分散保存理論が常に優れた実務性能に結びつくわけではない；条件によってはHe初期化が実務で依然として優れることがある。
逆伝播の分析はフォワードと同様の分散挙動を示し、勾配にも類似の分散特性が見られる。

Figure 2 : Variance difference estimation for weight parameterization sizes from 10 to 90

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。