Skip to main content
QUICK REVIEW

[論文レビュー] Generalization of ERM in Stochastic Convex Optimization: The Dimension Strikes Back

Vitaly Feldman|arXiv (Cornell University)|Aug 1, 2016
Risk and Portfolio Optimization被引用数 16
ひとこと要約

この論文は、確率的凸最適化において、標準的な $/ell_p/\ell_q$ の設定ですら、Lipschitz かつ有界半径の制約のもとでも、経験的リスク最小化(ERM)が次元 $d$ に線形に比例するサンプルサイズを必要とするということを示している。この次元依存のサンプル複雑性は、特定のノルムにおいて次元に依存しない、あるいは対数的サンプル複雑性を達成する代替手法とは対照的であり、高次元設定における ERM の根本的な限界を明らかにしている。

ABSTRACT

In stochastic convex optimization the goal is to minimize a convex function $F(x) \doteq \E_{f\sim D}[f(x)]$ over a convex set $\K \subset \R^d$ where $D$ is some unknown distribution and each $f(\cdot)$ in the support of $D$ is convex over $\K$. The optimization is based on i.i.d.~samples $f^1,f^2,\ldots,f^n$ from $D$. A common approach to such problems is empirical risk minimization (ERM) that optimizes $F_S(x) \doteq \frac{1}{n}\sum_{i\leq n} f^i(x)$. Here we consider the question of how many samples are necessary for ERM to succeed and the closely related question of uniform convergence of $F_S$ to $F$ over $\K$. We demonstrate that in the standard $\ell_p/\ell_q$ setting of Lipschitz-bounded functions over a $\K$ of bounded radius, ERM requires sample size that scales linearly with the dimension $d$. This nearly matches standard upper bounds and improves on $\Omega(\log d)$ dependence proved for $\ell_2/\ell_2$ setting in (Shalev-Shwartz et al. 2009). In stark contrast, these problems can be solved using dimension-independent number of samples for $\ell_2/\ell_2$ setting and $\log d$ dependence for $\ell_1/\ell_\infty$ setting using other approaches. We also demonstrate that for a more general class of range-bounded (but not Lipschitz-bounded) stochastic convex programs an even stronger gap appears already in dimension 2.

研究の動機と目的

  • 確率的凸最適化における経験的リスク最小化(ERM)が一般化するために必要なサンプル複雑性を理解すること。
  • ERM が凸集合 $\K$ 上で経験的リスク $F_S$ と真のリスク $F$ の一様収束を達成するかどうかを調査すること。
  • 異なるノルム設定($\ell_2/\ell_2$、$\ell_1/\ell_\infty$、および範囲有界関数)において、ERM のサンプル複雑性を代替手法と比較すること。
  • 特に高次元において、他の手法よりも ERM のサンプル複雑性が顕著に悪いとされる設定を特定すること。

提案手法

  • 標準的な $\ell_p/\ell_q$ ノルム制約の下で、確率的凸最適化における ERM の一般化性能を分析する。
  • 各 $f(\cdot)$ が凸集合 $\K \subset \mathbb{R}^d$ 上で凸であり、有界半径およびリプシッツ定数を持つとし、$F(x) = \mathbb{E}_{f \sim D}[f(x)]$ とする設定を考察する。
  • ERM が $\K$ 全体で $F_S(x)$ から $F(x)$ への一様収束を達成するための i.i.d. サンプル数 $n$ の下界を導出し、標準的設定では $n = \Omega(d)$ であることを示す。
  • 特定のノルムペアにおいて、$O(\log d)$ あるいは次元に依存しないサンプルサイズを達成する代替手法と、ERM のサンプル複雑性を比較する。
  • 次元 2 における構成を用いて、リプシッツ有界でないが範囲有界な関数に対して、サンプル複雑性の大きなギャップが生じることを示す。
  • この線形依存性が既存の上界にほぼ一致することを確立し、この領域における ERM のサンプル複雑性がタイトであることを示す。

実験結果

リサーチクエスチョン

  • RQ1標準的な $\ell_p/\ell_q$ 制約のもとで、確率的凸最適化における ERM が一般化するための最小サンプル数は何か?
  • RQ2異なるノルム設定、例えば $\ell_2/\ell_2$ および $\ell_1/\ell_\infty$ において、ERM のサンプル複雑性は代替手法と比べてどう異なるか?
  • RQ3高次元設定において、ERM の性能と他の最適化手法との間に根本的なギャップがあるか?
  • RQ4範囲有界だがリプシッツ有界でない関数クラスのような特定の関数クラスでは、ERM のサンプル複雑性の次元依存性を回避できるか?
  • RQ5ERM のサンプル複雑性の次元依存性が、既知の上界にほぼ一致するか? これはタイトさを示唆する。

主な発見

  • 標準的な $\ell_p/\ell_q$ の設定でリプシッツおよび有界半径の制約のもと、ERM は一様収束を達成するため $\Omega(d)$ のサンプルを必要とし、既存の上界にほぼ一致する。
  • この次元 $d$ に比例する依存性は、$\ell_2/\ell_2$ や $\ell_1/\ell_\infty$ の設定で次元に依存しない、あるいは $O(\log d)$ のサンプル複雑性を達成する代替手法と対照的である。
  • 範囲有界(ただしリプシッツ有界でない)な確率的凸計画問題においてでさえ、次元 2 でもサンプル複雑性の強いギャップが生じる。
  • この結果により、標準的設定において ERM のサンプル複雑性は次元によって本質的に制限されており、他の最適化アプローチと比較して顕著な弱みが明らかになる。
  • 分析により、$\Omega(d)$ の下界が既知の上界にほぼ一致することが確認され、ERM のサンプル複雑性がこの領域でタイトであることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。