Skip to main content
QUICK REVIEW

[論文レビュー] Streaming Complexity of SVMs

Alexandr Andoni, Collin Burns|arXiv (Cornell University)|Jan 1, 2020
Stochastic Gradient Optimization Techniques参考文献 11被引用数 2
ひとこと要約

この論文は、バイアス正則化付きサポートベクターマシン(SVM)のストリーミングアルゴリズムの空間計算量を調査し、低次元設定(d = 1, 2)において、点推定および最適化の両方に対して空間計算量がサブ線形であるアルゴリズムが存在することを示している。それぞれO(1/√ε)およびO(ε⁻⁴/⁵)の空間計算量を達成している。一方で、ストリーミング設定における点推定と最適化の間に明確なギャップが存在することを示すタイトまたはほぼタイトな下界を証明している。

ABSTRACT

We study the space complexity of solving the bias-regularized SVM problem in the streaming model. In particular, given a data set (x_i,y_i) ∈ ℝ^d× {-1,+1}, the objective function is F_λ(θ,b) = λ/2‖(θ,b)‖₂² + 1/n∑_{i=1}ⁿ max{0,1-y_i(θ^Tx_i+b)} and the goal is to find the parameters that (approximately) minimize this objective. This is a classic supervised learning problem that has drawn lots of attention, including for developing fast algorithms for solving the problem approximately: i.e., for finding (θ,b) such that F_λ(θ,b) ≤ min_{(θ',b')} F_λ(θ',b')+ε. One of the most widely used algorithms for approximately optimizing the SVM objective is Stochastic Gradient Descent (SGD), which requires only O(1/λε) random samples, and which immediately yields a streaming algorithm that uses O(d/λε) space. For related problems, better streaming algorithms are only known for smooth functions, unlike the SVM objective that we focus on in this work. We initiate an investigation of the space complexity for both finding an approximate optimum of this objective, and for the related "point estimation" problem of sketching the data set to evaluate the function value F_λ on any query (θ, b). We show that, for both problems, for dimensions d = 1,2, one can obtain streaming algorithms with space polynomially smaller than 1/λε, which is the complexity of SGD for strongly convex functions like the bias-regularized SVM [Shalev-Shwartz et al., 2007], and which is known to be tight in general, even for d = 1 [Agarwal et al., 2009]. We also prove polynomial lower bounds for both point estimation and optimization. In particular, for point estimation we obtain a tight bound of Θ(1/√{ε}) for d = 1 and a nearly tight lower bound of Ω̃(d/{ε}²) for d = Ω(log(1/ε)). Finally, for optimization, we prove a Ω(1/√{ε}) lower bound for d = Ω(log(1/ε)), and show similar bounds when d is constant.

研究の動機と目的

  • ストリーミングモデルにおけるバイアス正則化付きSVM問題の空間計算量を理解すること。
  • SVMのような非滑らかな目的関数に対して、標準的なSGD(O(d/λε)の空間計算量を要する)よりも優れたストリーミングアルゴリズムが存在するかどうかを調査すること。
  • 低次元設定における点推定および最適化の両方について、タイトまたはほぼタイトな下界を確立すること。
  • d = 1であっても、点推定と最適化の空間計算量の間に明確なギャップが存在することを示すこと。
  • 任意のクエリ (θ, b) に対して、SVM目的関数を加法的誤差ε以内で評価できるようにデータをスケッチする可能性を調査すること。

提案手法

  • 低次元(d = 1, 2)における幾何学的および確率的議論を用いて、点推定のための新しいストリーミングアルゴリズムを提案し、それぞれO(1/√ε)およびO(ε⁻⁴/⁵)の空間計算量を達成した。
  • ネットの議論による最適化から点推定への還元を採用し、優れた点推定器が近似SVM最適化を可能にすることを示した。
  • 支持ベクタの挙動を模倣するために、適切に選ばれたデータポイント(xα, xβ, xq)と内積を制御した補助ポイントviを用いて、困難なインスタンスを構築した。
  • 強い凸性と勾配に基づく解析を用いて、二つの異なるデータ構成における最適解間の距離の下界を導出した。
  • 通信複雑度の枠組みを適用し、ボブが二つのデータセットを区別しなければならない二者間問題に還元することで、下界を証明した。
  • λ = δ²の関係を活用し、n = 1/(20√ε)としてパラメータを調整することで、ストリーミング制約下でも下界構築が有効であることを保証した。

実験結果

リサーチクエスチョン

  • RQ1d > 1の場合に、バイアス正則化付きSVMの点推定をnに線形でない空間計算量で達成できるか?
  • RQ2低次元(d = 1, 2)におけるSVM目的関数のストリーミング点推定の最適な空間計算量は何か?
  • RQ3ストリーミングモデルにおけるSVMの点推定と最適化の空間計算量の間に、証明可能なギャップが存在するか?
  • RQ4SVMのような非滑らかな目的関数に対して、ストリーミングアルゴリズムはSGDよりも優れた空間計算量を達成できるか?
  • RQ5d = 1およびd ≥ 2のストリーミング設定において、点推定および最適化のタイトまたはほぼタイトな下界は何か?

主な発見

  • d = 1の場合、本論文は点推定の空間計算量O(1/√ε)を達成しており、対数的要因を除いてタイトである。
  • d = 2の場合、本論文は点推定の空間計算量O(ε⁻⁴/⁵)を達成しており、下界Ω(ε⁻³/⁵)が示され、ほぼ最適性が裏付けられている。
  • d = Ω(log(1/ε))の場合、本論文は点推定に対してΩ(d/(ε² polylog(1/ε)))の下界を証明しており、多項式対数的要因を除いてタイトである。
  • d = Ω(log(1/ε))の場合、最適化に対してΩ(1/√ε)の下界を確立し、SGDのO(1/λε)の計算量とは明確なギャップがあることを示した。
  • 結果として、d = 1であっても、ストリーミングモデルにおいて点推定は最適化よりもはるかに多くの空間計算量を要することが示された。
  • d = 2でλ = Θ(1/n²)の場合、スケッチの下界はΩ(ε⁻¹/⁴)であり、d ≥ 3でλ = Θ(1/n)の場合、Ω(ε⁻¹/²)である。これは次元および正則化の依存性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。