QUICK REVIEW

[论文解读] Generalization of ERM in Stochastic Convex Optimization: The Dimension Strikes Back

Vitaly Feldman|arXiv (Cornell University)|Aug 1, 2016

Risk and Portfolio Optimization被引用 16

一句话总结

该论文表明，在随机凸优化中，即使在利普希茨连续和有界半径约束下，经验风险最小化（ERM）在标准 $\ell_p/\ell_q$ 设置下，其样本量仍需随维度 $d$ 线性增长。这种与维度相关的样本复杂度与某些范数下实现维度无关或对数级样本复杂度的其他方法形成鲜明对比，揭示了 ERM 在高维设置下的根本局限性。

ABSTRACT

In stochastic convex optimization the goal is to minimize a convex function $F(x) \doteq \E_{f\sim D}[f(x)]$ over a convex set $\K \subset \R^d$ where $D$ is some unknown distribution and each $f(\cdot)$ in the support of $D$ is convex over $\K$. The optimization is based on i.i.d.~samples $f^1,f^2,\ldots,f^n$ from $D$. A common approach to such problems is empirical risk minimization (ERM) that optimizes $F_S(x) \doteq \frac{1}{n}\sum_{i\leq n} f^i(x)$. Here we consider the question of how many samples are necessary for ERM to succeed and the closely related question of uniform convergence of $F_S$ to $F$ over $\K$. We demonstrate that in the standard $\ell_p/\ell_q$ setting of Lipschitz-bounded functions over a $\K$ of bounded radius, ERM requires sample size that scales linearly with the dimension $d$. This nearly matches standard upper bounds and improves on $\Omega(\log d)$ dependence proved for $\ell_2/\ell_2$ setting in (Shalev-Shwartz et al. 2009). In stark contrast, these problems can be solved using dimension-independent number of samples for $\ell_2/\ell_2$ setting and $\log d$ dependence for $\ell_1/\ell_\infty$ setting using other approaches. We also demonstrate that for a more general class of range-bounded (but not Lipschitz-bounded) stochastic convex programs an even stronger gap appears already in dimension 2.

研究动机与目标

理解在随机凸优化中，经验风险最小化（ERM）实现泛化的样本复杂度要求。
研究 ERM 是否能在凸集 $\K$ 上实现经验风险 $F_S$ 到真实风险 $F$ 的一致收敛。
比较 ERM 在不同范数设置（$\ell_2/\ell_2$、$\ell_1/\ell_\infty$ 和有界范围函数）下与替代方法的样本复杂度。
识别 ERM 的样本复杂度在哪些情形下被证明劣于其他方法，尤其是在高维情形下。

提出的方法

分析在标准 $\ell_p/\ell_q$ 范数约束下，ERM 在随机凸优化中的泛化性能。
考虑每个 $f(\cdot)$ 在凸集 $\K \subset \mathbb{R}^d$ 上为凸函数，且具有有界半径和利普希茨常数，且 $F(x) = \mathbb{E}_{f \sim D}[f(x)]$ 的情形。
推导出 ERM 实现 $F_S(x)$ 到 $F(x)$ 在 $\K$ 上一致收敛所需的独立同分布样本数 $n$ 的下界，表明在标准设置下 $n = \Omega(d)$。
将 ERM 的样本复杂度与在特定范数对下实现 $O(\log d)$ 或维度无关样本量的替代方法进行比较。
通过在二维空间中的构造，展示在有界范围但非利普希茨有界的函数中，样本复杂度存在显著差距。
证明 $d$ 的线性依赖性几乎与现有上界一致，表明在此参数范围内 ERM 的样本复杂度是紧致的。

实验结果

研究问题

RQ1在标准 $\ell_p/\ell_q$ 约束下，ERM 实现随机凸优化中泛化的最小样本数是多少？
RQ2在不同范数设置（如 $\ell_2/\ell_2$ 和 $\ell_1/\ell_\infty$）下，ERM 的样本复杂度与替代方法相比如何？
RQ3在高维设置下，ERM 的性能与其它优化方法之间是否存在根本性差距？
RQ4在某些函数类（如范围有界但非利普希茨有界）中，能否避免 ERM 样本复杂度对维度 $d$ 的线性依赖？
RQ5ERM 样本复杂度的维度依赖性是否几乎与已知上界一致，表明其紧致性？

主要发现

在具有利普希茨连续和有界半径约束的标准 $\ell_p/\ell_q$ 设置下，ERM 实现一致收敛需要 $\Omega(d)$ 个样本，几乎与现有上界一致。
这种对维度 $d$ 的线性依赖性与在 $\ell_2/\ell_2$ 和 $\ell_1/\ell_\infty$ 设置下实现维度无关或 $O(\log d)$ 样本复杂度的其他方法形成鲜明对比。
即使在二维空间中，对于有界范围（但非利普希茨有界）的随机凸规划，样本复杂度的差距也更加显著。
该结果表明，ERM 的样本复杂度在标准设置下本质上受限于维度，凸显了其相较于其他优化方法的关键弱点。
分析确认 $\Omega(d)$ 下界几乎与已知上界一致，表明 ERM 的样本复杂度在此参数范围内是紧致的。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。