QUICK REVIEW

[論文レビュー] Competing with the Empirical Risk Minimizer in a Single Pass

Roy Frostig, Rong Ge|arXiv (Cornell University)|Dec 20, 2014

Stochastic Gradient Optimization Techniques参考文献 21被引用数 30

ひとこと要約

この論文は、線形時間および線形空間で、データを一度しか走査しないストリーミングアルゴリズムを提示しており、経験的リスク最小化（ERM）の統計的収束速度に一致する。初期誤差の超多項式的減少を達成し、ERMと同等の性能を発揮する。また、並列処理が容易であり、標準的な滑らかさと強い凸性の仮定の下で、線形回帰やロジスティック回帰などの問題に対して有限標本保証を提供する。

ABSTRACT

In many estimation problems, e.g. linear and logistic regression, we wish to minimize an unknown objective given only unbiased samples of the objective function. Furthermore, we aim to achieve this using as few samples as possible. In the absence of computational constraints, the minimizer of a sample average of observed data -- commonly referred to as either the empirical risk minimizer (ERM) or the $M$-estimator -- is widely regarded as the estimation strategy of choice due to its desirable statistical convergence properties. Our goal in this work is to perform as well as the ERM, on every problem, while minimizing the use of computational resources such as running time and space usage. We provide a simple streaming algorithm which, under standard regularity assumptions on the underlying problem, enjoys the following properties: * The algorithm can be implemented in linear time with a single pass of the observed data, using space linear in the size of a single sample. * The algorithm achieves the same statistical rate of convergence as the empirical risk minimizer on every problem, even considering constant factors. * The algorithm's performance depends on the initial error at a rate that decreases super-polynomially. * The algorithm is easily parallelizable. Moreover, we quantify the (finite-sample) rate at which the algorithm becomes competitive with the ERM.

研究の動機と目的

収束速度の観点で経験的リスク最小化（ERM）の統計的性能に一致する計算効率の良いアルゴリズムの開発。
すべての問題においてERMレベルの精度を達成しつつ、実行時間とメモリ使用量を最小限に抑える計算リソースの最適化。
アルゴリズムがERMに競合できるようになる有限標本レート、特に初期誤差の減少割合を定量化すること。
大規模なストリーミングデータに適した並列処理が容易なアルゴリズムであることの保証。
線形回帰を越える広いクラスのM推定量問題に対して有限標本解析を提供すること。

提案手法

アルゴリズムは、ストリーミング設定に適応された確率的バリアンス低減勾配（SVRG）の変種であり、データを一度のパスで処理する。
参照点における勾配およびヘッセ行列の推定値を逐次的に維持し、定期的に更新することで分散を低減する。
定数ステップサイズを用い、条件数 $\kappa = L/\mu$ を制御することで収束を保証する。ここで $L$ は滑らかさ、$\mu$ は強い凸性を表す。
最適解における経験的勾配と真の勾配の乖離を制御するため、高確率事象 $\mathcal{E}$ を導入する。
ヘッセ行列近似の固有値の境界を活用し、過剰リスクを $w_*$ における経験的勾配のノルムに関連付ける。
集中不等式と尾部確率の境界を組み合わせ、主要な事象の失敗確率が $O(1/N^p)$ の割合で減少することを示し、有限標本保証を実現する。

実験結果

リサーチクエスチョン

RQ1定数要因を考慮しても、1回のパスで走査するストリーミングアルゴリズムが、ERMと同等の統計的収束速度を達成できるか？
RQ2アルゴリズムの初期誤差はどの程度の速度で減少するか？多項式的減少を上回る速度で減少するか？
RQ3有限標本のサンプルサイズの閾値は何か？そのときアルゴリズムはERMに競合可能になるか？
RQ4収束保証を損なわずに並列処理が可能か？
RQ5線形回帰などの問題において、条件数 $\kappa = L/\mu$ がアルゴリズムの性能にどのように影響するか？

主な発見

標準的な滑らかさと強い凸性の仮定の下で、定数要因を含めても、アルゴリズムはERMと同等の統計的収束速度を達成する。
データを一度のパスで処理し、1つのサンプルのサイズに比例する線形なメモリ使用量であるため、ストリーミング環境での効率的導入が可能である。
初期誤差は $N/\kappa$ の任意の多項式よりも速い超多項式的減少を示し、$N$ はサンプルサイズ、$\kappa$ は条件数である。
サンプルサイズ $N$ が $\kappa$ の定数倍を超えると、アルゴリズムはERMに競合可能となり、過剰リスクの観点から有限標本保証が明示される。
過剰リスクは高確率で $O(\sigma^2 / N)$ で有界であり、定数因子を除いてERMの有限標本レートと一致する。
並列処理が容易であり、各データパスを複数のマシンに分散させても収束特性に影響を及ぼさない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。