[论文解读] Generalization error in high-dimensional perceptrons: Approaching Bayes error with convex optimization
本文推导出高维线性分类中 $\ell_2$-正则化凸分类器的一般化误差的精确公式,表明当样本与特征比 $\alpha = n/d \to \infty$ 时,逻辑回归和合页回归几乎可达到贝叶斯最优性能。此外,通过基于统计物理和状态演化理论的变分方法,设计了一种最优的非凸损失函数与正则化项,其可证明地达到贝叶斯最优误差率。
We consider a commonly studied supervised classification of a synthetic dataset whose labels are generated by feeding a one-layer neural network with random iid inputs. We study the generalization performances of standard classifiers in the high-dimensional regime where $α=n/d$ is kept finite in the limit of a high dimension $d$ and number of samples $n$. Our contribution is three-fold: First, we prove a formula for the generalization error achieved by $\ell_2$ regularized classifiers that minimize a convex loss. This formula was first obtained by the heuristic replica method of statistical physics. Secondly, focussing on commonly used loss functions and optimizing the $\ell_2$ regularization strength, we observe that while ridge regression performance is poor, logistic and hinge regression are surprisingly able to approach the Bayes-optimal generalization error extremely closely. As $α o \infty$ they lead to Bayes-optimal rates, a fact that does not follow from predictions of margin-based generalization error bounds. Third, we design an optimal loss and regularizer that provably leads to Bayes-optimal generalization error.
研究动机与目标
- 推导 $\ell_2$-正则化凸分类器在高维极限($n/d = \alpha$ 有限,$d \to \infty$)下一 般化误差的严格公式。
- 评估标准凸损失函数(逻辑、合页、平方)在 $\ell_2$ 正则化下的性能,并与贝叶斯最优误差率进行比较。
- 设计一种最优损失函数与正则化项,使其在高维感知机模型中可证明地达到贝叶斯最优一般化误差。
- 证明在该设定下,基于边距的一般化界无法预测逻辑回归与合页回归的近似最优性能。
提出的方法
- 使用统计物理中的副本方法,推导出高维极限下一 般化误差的闭式表达式。
- 应用近似消息传递(GAMP)算法的状态演化方法,刻画估计量和后验方差的渐近行为。
- 通过涉及 Moreau-Yosida 正则化与后验精度逆矩阵的变分公式,推导最优损失与正则化项。
- 依赖高维空间中测度集中现象,以证明对 $q_b$ 与 $\hat{q}_b$ 方差使用确定性不动点方程的合理性。
- 利用 Moreau-Yosida 恒等式反转正则化项,从后验配分函数构造最优正则化项 $r^{\rm opt}$。
- 通过在有限维实例($d = 10^3$)上使用 L-BFGS-B 优化,对理论预测进行数值验证,结果与理论预测近乎完全一致。
实验结果
研究问题
- RQ1能否为高维线性分类中 $\ell_2$-正则化凸分类器的一般化误差推导出一个严格公式?
- RQ2为何逻辑回归与合页回归在不满足标准边距一般化界的情况下,仍能实现接近贝叶斯最优的性能?
- RQ3在此设定下,何种损失函数与正则化项可被证明达到贝叶斯最优一般化误差?
- RQ4当 $\alpha \to \infty$ 时,标准凸损失函数的性能与贝叶斯最优率相比如何?
主要发现
- $\ell_2$-正则化凸分类器的一般化误差可通过副本方法推导出的公式精确刻画,并经状态演化方法验证。
- 逻辑回归与合页回归在 $\alpha \to \infty$ 时,其一般化误差可任意接近贝叶斯最优率,尽管受边距界限制。
- 岭回归表现较差,表明损失函数的选择对实现近似最优性能至关重要。
- 通过后验配分函数与 Moreau-Yosida 反演,显式构造出最优损失 $l^{\rm opt}$ 与正则化项 $r^{\rm opt}$,其可证明地实现贝叶斯最优性。
- 在 $d = 10^3$ 的数值模拟中,使用最优损失与正则化项的 ERM 方法与贝叶斯最优误差率完全一致,误差条可忽略不计。
- 最优损失 $l^{\rm opt}$ 虽为非凸,但呈现准凸性,表明在此设定下,非凸性并不妨碍收敛至最优性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。