Skip to main content
QUICK REVIEW

[論文レビュー] Pruning at Initialisation through the lens of Graphon Limit: Convergence, Expressivity, and Generalisation

Hoang Viet Pham, The-Anh Ta|arXiv (Cornell University)|Feb 6, 2026
Advanced Graph Neural Networks被引用数 0
ひとこと要約

要約: その論文は、初期化時の剪定マスクが因子化された顕著性モデルの下で決定論的な二部グラフオンへ収束することを証明し、これを用いて疎なネットワークに対する普遍近似性とGraphon-NTK一般化の結果を導出する。

ABSTRACT

Pruning at Initialisation methods discover sparse, trainable subnetworks before training, but their theoretical mechanisms remain elusive. Existing analyses are often limited to finite-width statistics, lacking a rigorous characterisation of the global sparsity patterns that emerge as networks grow large. In this work, we connect discrete pruning heuristics to graph limit theory via graphons, establishing the graphon limit of PaI masks. We introduce a Factorised Saliency Model that encompasses popular pruning criteria and prove that, under regularity conditions, the discrete masks generated by these algorithms converge to deterministic bipartite graphons. This limit framework establishes a novel topological taxonomy for sparse networks: while unstructured methods (e.g., Random, Magnitude) converge to homogeneous graphons representing uniform connectivity, data-driven methods (e.g., SNIP, GraSP) converge to heterogeneous graphons that encode implicit feature selection. Leveraging this continuous characterisation, we derive two fundamental theoretical results: (i) a Universal Approximation Theorem for sparse networks that depends only on the intrinsic dimension of active coordinate subspaces; and (ii) a Graphon-NTK generalisation bound demonstrating how the limit graphon modulates the kernel geometry to align with informative features. Our results transform the study of sparse neural networks from combinatorial graph problems into a rigorous framework of continuous operators, offering a new mechanism for analysing expressivity and generalisation in sparse neural networks.

研究の動機と目的

  • グラフオン極限理論の中でPaIを動機づけ formalizeすることにより、広幅度における疎性パターンを理解する。
  • 共通のPaI基準を捉え、二部グラフォーンへの収束を証明するFactorised Saliency Modelを導入する。
  • 極限グラフォーンが、非構造的な剪定とデータ駆動剪定をトポロジーと表現力の観点でどのように区別するかを特徴付ける。
  • 活性座標部分空間としてグラフォーン極限によって識別される領域を用いて、疎なネットワークの普遍近似性とGraphon-NTK一般化境界を導出する。

提案手法

  • PaIの顕著性スコアを入力特徴、ニューロン特徴、エッジノイズの積としてモデル化する(S_n = φ_n,i · ψ_n,j · |ξ_n,ij|)。
  • S_n の閾値処理によって得られるマスクが、決定論的極限グラフォーン W(u,v) へ二部グラフォーン切断距離で収束することを示す。
  • 収束を保証する正則性仮定を提供する(成長、決定論的入力特徴、経験的CDF、エッジノイズ、閾値安定性)。
  • Factorisedモデルの下で SNIP、GraSP、SynFlow、Magnitude、Random pruning へFrameworkを特化する。
  • グラフォーン極限によって特定される活性座標部分空間を用い、希少ネットワークの普遍近似定理を証明する。
  • 極限グラフォーンがカーネル幾何と一般化を調整するように、既存のGraphon-NTK一般化境界を適用する。
Figure 1 : Visual convergence to the graphon limit. We compare averaged empirical masks (over 100 seeds) at increasing widths ( $n=200,500,1000,2000,4000$ ) against the analytically computed Theoretical Graphon. The density is fixed at $\rho=0.2$ .
Figure 1 : Visual convergence to the graphon limit. We compare averaged empirical masks (over 100 seeds) at increasing widths ( $n=200,500,1000,2000,4000$ ) against the analytically computed Theoretical Graphon. The density is fixed at $\rho=0.2$ .

実験結果

リサーチクエスチョン

  • RQ1PaI剪定マスクは無限幅極限でグラフォーンを用いて厳密に特徴づけ可能か?
  • RQ2異なるPaI基準はどのようなグラフォーン構造へ収束し、それらの構造はデータ依存性と特徴選択とどう関係するか?
  • RQ3グラフォーン極限によって誘導される疎ネットワークは普遍近似能力を保持するか?
  • RQ4Graphon-NTKフレームワークは疎ネットワークの一般化をどのように境界づけ、極限グラフォーンに依存するか?
  • RQ5データ駆動剪定は非構造剪定と比較してカーネル整列と一般化にどのような影響を与えるか?

主な発見

  • PaI法による離散マスクはFactorised Saliency Modelの下で確率収束し決定論的な二部グラフォーンへ収束する。
  • 非構造剪定法(Random, Magnitude)は均質グラフォーンへ収束し、極限で均一な結合性を示す。
  • データ駆動剪定(SNIP, GraSP)は異質グラフォーンへ収束し、入力と勾配信号に影響された有効特徴結合を表現する。
  • 極限グラフォーンは無限幅領域における剪定法を区別するトポロジー的署名として機能する。
  • 低次元サブ空間で活性な矩形が極限グラフォーンにおいて正の確率を持つ場合、希少ネットワークの普遍近似定理が成り立つ。
  • Graphon-NTK一般化境界は、グラフォーンによってエンコードされる結合密度がカーネル整列を調整し、構造化剪定の一般化を改善し得ることを示す。
Figure 2 : Sensitivity of Graphon-NTK Complexity to Label Noise and Sparsity. Each panel plots the theoretical complexity $y^{\top}K_{\mathcal{W}}^{-1}y$ (y-axis) against the ratio of randomised labels (x-axis) for a specific density $\rho$ .
Figure 2 : Sensitivity of Graphon-NTK Complexity to Label Noise and Sparsity. Each panel plots the theoretical complexity $y^{\top}K_{\mathcal{W}}^{-1}y$ (y-axis) against the ratio of randomised labels (x-axis) for a specific density $\rho$ .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。