QUICK REVIEW

[논문 리뷰] Generalization of ERM in Stochastic Convex Optimization: The Dimension Strikes Back

Vitaly Feldman|arXiv (Cornell University)|2016. 08. 01.

Risk and Portfolio Optimization인용 수 16

한 줄 요약

이 논문은 확률적 볼록 최적화에서 표본 평균 위험 최소화(ERM)가 표준 $\ell_p/\ell_q$ 설정 조건 하에서도 리프시츠 조건과 유한 반경 제약 조건이 존재할지라도 차원 $d$에 대해 선형적으로 증가하는 표본 크기가 필요하다는 것을 보여준다. 이는 특정 노름에서 차원에 의존하지 않거나 로그 수준의 표본 복잡도를 달성하는 다른 방법들과는 대조적으로, 고차원 환경에서 ERM의 근본적인 한계를 드러낸다.

ABSTRACT

In stochastic convex optimization the goal is to minimize a convex function $F(x) \doteq \E_{f\sim D}[f(x)]$ over a convex set $\K \subset \R^d$ where $D$ is some unknown distribution and each $f(\cdot)$ in the support of $D$ is convex over $\K$. The optimization is based on i.i.d.~samples $f^1,f^2,\ldots,f^n$ from $D$. A common approach to such problems is empirical risk minimization (ERM) that optimizes $F_S(x) \doteq \frac{1}{n}\sum_{i\leq n} f^i(x)$. Here we consider the question of how many samples are necessary for ERM to succeed and the closely related question of uniform convergence of $F_S$ to $F$ over $\K$. We demonstrate that in the standard $\ell_p/\ell_q$ setting of Lipschitz-bounded functions over a $\K$ of bounded radius, ERM requires sample size that scales linearly with the dimension $d$. This nearly matches standard upper bounds and improves on $\Omega(\log d)$ dependence proved for $\ell_2/\ell_2$ setting in (Shalev-Shwartz et al. 2009). In stark contrast, these problems can be solved using dimension-independent number of samples for $\ell_2/\ell_2$ setting and $\log d$ dependence for $\ell_1/\ell_\infty$ setting using other approaches. We also demonstrate that for a more general class of range-bounded (but not Lipschitz-bounded) stochastic convex programs an even stronger gap appears already in dimension 2.

연구 동기 및 목표

확률적 볼록 최적화에서 일반화를 위해 표본 복잡도가 ERM에 얼마나 필요한지 이해하기.
ERM가 볼록 집합 $\K$ 위에서 경험 위험 $F_S$가 진짜 위험 $F$로 균일 수렴하는지 조사하기.
다양한 노름 설정($\ell_2/\ell_2$, $\ell_1/\ell_\infty$, 및 범위가 유한한 함수)에서 ERM의 표본 복잡도를 다른 방법들과 비교하기.
특히 고차원 환경에서 ERM의 표본 복잡도가 다른 방법들보다 증명적으로 열 劣한 설정을 특정하기.

제안 방법

표준 $\ell_p/\ell_q$ 노름 제약 조건 하에서 확률적 볼록 최적화에서 ERM의 일반화 성능을 분석한다.
각 $f(\cdot)$가 볼록 집합 $\K \subset \mathbb{R}^d$ 위에서 유한 반경과 리프시츠 상수를 가지며, $F(x) = \mathbb{E}_{f \sim D}[f(x)]$임을 고려한다.
ERM이 $\K$ 위에서 $F_S(x)$가 $F(x)$로 균일 수렴하기 위해 필요한 독립 동일분포 표본 수 $n$의 하한을 도출하여, 표준 설정에서 $n = \Omega(d)$임을 보인다.
특정 노름 쌍에서 $O(\log d)$ 또는 차원에 의존하지 않는 표본 크기를 달성하는 다른 방법들과 ERM의 표본 복잡도를 비교한다.
범위가 유한하지만 리프시츠가 아닌 함수에 대해 2차원에서의 구성 방법을 통해 표본 복잡도의 뚜렷한 격차를 보여준다.
차원 $d$에 대한 선형 의존성이 기존 상한과 거의 일치함을 입증하여, 이 영역에서 ERM의 표본 복잡도가 정확하게 맞는다는 것을 확인한다.

실험 결과

연구 질문

RQ1표준 $\ell_p/\ell_q$ 제약 조건 하에서 확률적 볼록 최적화에서 ERM가 일반화하기 위해 필요한 최소 표본 수는 얼마인가?
RQ2다른 노름 설정, 예를 들어 $\ell_2/\ell_2$ 및 $\ell_1/\ell_\infty$에서 ERM의 표본 복잡도는 다른 방법들과 어떻게 비교되는가?
RQ3고차원 환경에서 ERM의 성능과 다른 최적화 방법 간에 근본적인 격차가 존재하는가?
RQ4범위가 유한하지만 리프시츠가 아닌 함수 클래스와 같은 특정 함수 클래스에서는 ERM의 표본 복잡도가 차원 $d$에 대해 선형 의존성을 피할 수 있는가?
RQ5ERM의 표본 복잡도가 차원에 따라 선형으로 의존하는 것이 알려진 상한과 거의 일치하는가? 이는 복잡도가 이 영역에서 정확하게 맞는다는 것을 의미하는가?

주요 결과

표준 $\ell_p/\ell_q$ 설정에서 리프시츠 조건과 유한 반경 제약 조건 하에서 ERM는 균일 수렴을 달성하기 위해 $\Omega(d)$개의 표본이 필요하며, 이는 기존 상한과 거의 일치한다.
이러한 $d$에 대한 선형 의존성은 $\ell_2/\ell_2$ 및 $\ell_1/\ell_\infty$ 설정에서 차원에 의존하지 않거나 $O(\log d)$의 표본 복잡도를 달성하는 다른 방법들과 대조적으로 뚜렷하다.
범위가 유한하지만 리프시츠가 아닌 확률적 볼록 프로그램에서는 2차원에서도 표본 복잡도의 더 큰 격차가 나타난다.
이 결과는 표준 설정에서 ERM의 표본 복잡도가 차원에 의해 본질적으로 제한됨을 보여주며, 다른 최적화 접근법에 비해 핵심적인 약점을 드러낸다.
분석을 통해 $\Omega(d)$ 하한이 알려진 상한과 거의 일치함을 확인하여, ERM의 표본 복잡도가 이 영역에서 정확하게 맞는다는 것을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.