Skip to main content
QUICK REVIEW

[论文解读] Topological trivialization in non-convex empirical risk minimization

Andrea Montanari, Basil N. Saeed|arXiv (Cornell University)|Feb 16, 2026
Statistical Methods and Inference被引用 0
一句话总结

论文基于 Kac-Rice 框架来刻画在比例高维尺度下非凸经验风险的局部极小值格局,并证明在过度采样阈值以上时的收敛率简并性。它专门应用于非凸的 M-estimation 与 Tukey 损失的鲁棒回归。

ABSTRACT

Given data $\{({\boldsymbol x}_i,y_i): i\le n\}$, with ${\boldsymbol x}_i$ standard $d$-dimensional Gaussian feature vectors, and $y_i\in{\mathbb R}$ response variables, we study the general problem of learning a model parametrized by ${\boldsymbol θ}\in{\mathbb R}^d$, by minimizing a loss function that depends on ${\boldsymbol θ}$ via the one-dimensional projections ${\boldsymbol θ}^{\sf T}{\boldsymbol x}_i$. While previous work mostly dealt with convex losses, our approach assumes general (non-convex) losses hence covering classical, yet poorly understood examples such as the perceptron and non-convex robust regression. We use the Kac-Rice formula to control the asymptotics of the expected number of local minima of the empirical risk, under the proportional asymptotics $n,d o\infty$, $n/d oα>1$. Specifically, we prove a finite dimensional variational formula for the exponential growth rate of the expected number of local minima. Further we provide sufficient conditions under which the exponential growth rate vanishes and all empirical risk minimizers have the same asymptotic properties (in fact, we expect the minimizer to be unique in these circumstances). We refer to this phenomenon as `rate trivialization.' If the population risk has a unique minimizer, our sufficient condition for rate trivialization is typically verified when the samples/parameters ratio $α$ is larger than a suitable constant $α_{\star}$. Previous general results of this type required $n\ge Cd \log d$. We illustrate our results in the case of non-convex robust regression. Based on heuristic arguments and numerical simulations, we present a conjecture for the exact location of the trivialization phase transition $α_{ ext{tr}}$.

研究动机与目标

  • 在 n 和 d 成比例增长的高维中, Motivating 并研究在非凸损失下的学习模型。
  • 使用 Kac-Rice 技术刻画经验风险的局部极小值格局。
  • 推导局部极小值指数增长率的有限维变分公式。
  • 给出使得所有极小值具有渐近性质的一致性条件,即率的简并化。
  • 将该框架专门化到非凸 M-estimation 与 Tukey 损失的鲁棒回归。
  • 结合数值仿真来说明理论预测,并对简并化转变点提出猜想。

提出的方法

  • 使用 Kac-Rice 公式在 n,d→∞ 且 n/d→α>1 时控制局部极小值的期望数量的渐近性。
  • 定义经验分布与一个速率函数 Φ(μ,ν) 来描述局部极小值的增长(Eq. 3–5)。
  • 在约束线性时将极小化原问题化简为一个极小-极大变分原理并化简为有限维形式(定理 1)。
  • 通过稳定性/replicon 型条件与显式 α⋆ 阈值(定理 2)给出率简并化的充分条件。
  • 将一般结果专门化到非凸 M-estimation,特别是 Tukey 损失的鲁棒回归(定理 3)。
  • 将非凸损失的近端算子与驻点条件和谱稳定性联系起来(Eqs. 33–37)。

实验结果

研究问题

  • RQ1在比例高维尺度下,经验风险的局部极小值的异常增长率是多少?
  • RQ2在什么条件下会发生率简并化,即所有局部极小值具有相同的渐近性质,极小点是否几乎唯一?
  • RQ3如何将一般的 Kac-Rice 框架简化为有限维的可实用表征?
  • RQ4在大 α 的情况下,非凸 M-estimation 问题(包括 Tukey 鲁棒回归)在景观拓扑方面的表现如何?
  • RQ5理论预测是否能通过数值仿真得到验证,对于中等 n,d 的情形预测的准确性如何?

主要发现

  • 导出一个关于局部极小值期望数量的指数增长率的有限维变分公式(定理 1)。
  • 给出率简并化的充分条件,提供一个显式的 α⋆ 阈值,在该阈值以上速率函数 Φ⋆(μ,ν) 在唯一最优解处达到最小化,从而实现清晰的景观表征(定理 2)。
  • 结果专门化至非凸 M-estimation,并对 Tukey 损失的鲁棒回归给出准确预测,与数值实验一致。
  • 数值实验展示了在简单化阈值 αtr 附近梯度下降动力学的相变,在 α>αtr 时收敛到单一极小值,而在 α<αtr 时呈现多重结果。
  • 基于近端算子的一种表征(Eq. 33)将局部最优性条件与驻点及稳定性条件联系起来,类似自旋玻璃理论中的 replicon 条件(Eq. 38)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。