Skip to main content
QUICK REVIEW

[論文レビュー] Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Binchuan Qi|arXiv (Cornell University)|Feb 18, 2026
Stochastic Gradient Optimization Techniques被引用数 0
ひとこと要約

本論文は、凸共役対・指数族の実用的学習可能性・Fenchel–Young損失を用いた深層ニューラルネットワークの訓練性と一般化の統一理論である共役学習理論を導入し、理論的成果と経験的検証を提示する。

ABSTRACT

In this work, we propose a notion of practical learnability grounded in finite sample settings, and develop a conjugate learning theoretical framework based on convex conjugate duality to characterize this learnability property. Building on this foundation, we demonstrate that training deep neural networks (DNNs) with mini-batch stochastic gradient descent (SGD) achieves global optima of empirical risk by jointly controlling the extreme eigenvalues of a structure matrix and the gradient energy, and we establish a corresponding convergence theorem. We further elucidate the impact of batch size and model architecture (including depth, parameter count, sparsity, skip connections, and other characteristics) on non-convex optimization. Additionally, we derive a model-agnostic lower bound for the achievable empirical risk, theoretically demonstrating that data determines the fundamental limit of trainability. On the generalization front, we derive deterministic and probabilistic bounds on generalization error based on generalized conditional entropy measures. The former explicitly delineates the range of generalization error, while the latter characterizes the distribution of generalization error relative to the deterministic bounds under independent and identically distributed (i.i.d.) sampling conditions. Furthermore, these bounds explicitly quantify the influence of three key factors: (i) information loss induced by irreversibility in the model, (ii) the maximum attainable loss value, and (iii) the generalized conditional entropy of features with respect to labels. Moreover, they offer a unified theoretical lens for understanding the roles of regularization, irreversible transformations, and network depth in shaping the generalization behavior of deep neural networks. Extensive experiments validate all theoretical predictions, confirming the framework's correctness and consistency.

研究の動機と目的

  • 古典的最適化を超える深層ニューラルネットワークの訓練性と一般化の統一理論の必要性を動機づける。
  • 凸共役双対性に基づく Frameworkとして、実用的学習可能性と分布推定をモデル化する共役学習理論を提案する。
  • このFrameworkの下でアーキテクチャ、データ、最適化が相互作用し、訓練ダイナミクスと一般化を説明する。
  • 仮説空間を制約する凸制約を介して先行知識を統合し、学習効率を向上させる。

提案手法

  • Xの関数でパラメータ化された指数族分布として条件分布Y|Xをモデル化する。
  • この計画のもとで最大尤度はFenchel–Young損失を最小化することと同等であることを示す。
  • 凸生成関数と前知識を表す凸制約集合を組み込んだ共役学習目的を定義する。
  • 構造行列と勾配エネルギーを導入し、非凸の経験的リスク最適化を制約付き勾配ダイナミクスとして再解釈する。
  • 一般化条件付きエントロピーを介して決定論的・確率的一般化境界を導出する。
  • 理論と整合することを示す広範な深層学習実験で予測を検証する。
Figure 1: Schematic illustration of the conjugate learning framework. The diagram outlines the complete processing pipeline from raw input to learning target approximation, emphasizing the interplay among model output, conjugate transformation, and distance measurement.
Figure 1: Schematic illustration of the conjugate learning framework. The diagram outlines the complete processing pipeline from raw input to learning target approximation, emphasizing the interplay among model output, conjugate transformation, and distance measurement.

実験結果

リサーチクエスチョン

  • RQ1有限サンプルの深層学習設定における実用的学習可能性はどのように特徴づけられるか。
  • RQ2学習を条件付き分布推定として捉えたとき、訓練性と一般化を支配するメカニズムは何か。
  • RQ3バッチサイズ、アーキテクチャ、事前知識が共役学習フレームワーク内の収束と一般化にどのように影響するか。
  • RQ4Fenchel–Young損失と凸共役双対性は、タスクを横断する損失(分類、回帰、生成モデルなど)を統一できるか。

主な発見

  • 共役学習理論は凸共役対によって訓練性と一般化を結ぶ統一的な枠組みを提供する。
  • 指数族仮定の下での最大尤度はFenchel–Young損失の最小化に対応し、凸制約と組み合わせた搌方法設計を可能にする。
  • 新規の構造行列と勾配相関因子は、アーキテクチャとデータがミニバッチSGDの収束に与える影響を定量化する。
  • 一般化境界は一般化条件付きエントロピーを介して導出され、情報損失・損失スケール・データ特性の影響を捉える。
  • このFrameworkは非独立同分布データ、明示的な事前統合、双重予測写像を許容し、正則化・不可逆性・深さへの洞察を生む。
  • 実験結果は標準的なDNN設定において理論予測と実データの挙動が密接に一致することを示す。
Figure 3: Custom-designed model architectures and configuration parameters. Gray blocks represent components where the number of repetitions can be adjusted via the parameter $n_{d}$ , and model width can be tuned via the parameter $n_{w}$ . Model B is a modified variant of Model A with additional s
Figure 3: Custom-designed model architectures and configuration parameters. Gray blocks represent components where the number of repetitions can be adjusted via the parameter $n_{d}$ , and model width can be tuned via the parameter $n_{w}$ . Model B is a modified variant of Model A with additional s

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。