QUICK REVIEW

[論文レビュー] Learning with SGD and Random Features

Luigi Carratino, Alessandro Rudi|arXiv (Cornell University)|Jul 17, 2018

Face and Expression Recognition被引用数 34

ひとこと要約

本稿は、非パラメトリック学習におけるランダム特徴量を用いた確率的勾配降下法（SGD）を研究し、最適な $O(1/ar{\sqrt{n}})$ の一般化誤差が $√{n}$ 個のランダム特徴量のみで達成されることを示している。この手法は、学習率、ミニバッチサイズ、反復回数といったハイパーパrameterを通じて暗黙的正則化を実現し、明示的なペナルティなしにスケーラブルな大規模学習が可能である。

ABSTRACT

Sketching and stochastic gradient methods are arguably the most common techniques to derive efficient large scale learning algorithms. In this paper, we investigate their application in the context of nonparametric statistical learning. More precisely, we study the estimator defined by stochastic gradient with mini batches and random features. The latter can be seen as form of nonlinear sketching and used to define approximate kernel methods. The considered estimator is not explicitly penalized/constrained and regularization is implicit. Indeed, our study highlights how different parameters, such as number of features, iterations, step-size and mini-batch size control the learning properties of the solutions. We do this by deriving optimal finite sample bounds, under standard assumptions. The obtained results are corroborated and illustrated by numerical experiments.

研究の動機と目的

ランダム特徴量を用いたSGDの非パラメトリック回帰における統計的・計算的トレードオフを分析すること。
学習率、ミニバッチサイズ、反復回数といったハイパーパrameterがどのように暗黙的正則化を生じさせるかを理解すること。
標準的な仮定の下で、ランダム特徴量を用いたSGD推定子の有限標本一般化バウンドを導出すること。
SUSY や HIGGS といった実世界のデータセットを用いた実験により理論的発見を検証すること。
$\sqrt{n}$ 個のランダム特徴量で十分に最適な収束速度が達成され、明示的正則化を回避できることを示すこと。

提案手法

ランダム特徴量を用いた再生核ヒルベルト空間上の最小二乗回帰として学習問題を定式化する。
ランダム特徴量マップ $\phi_M(x)$ を用いて、モデル重み $w$ をミニバッチ確率的勾配降下法で推定する。
シフト不変カーネルを近似するために、i.i.d. な $w \sim \mathcal{N}(0, \Sigma)$ と $q \sim \text{Unif}[0, 2\pi]$ を用いたランダムフーリエ特徴量を採用する。
有界な特徴量マップとサブガウスノイズの仮定の下で推定子を分析する。
SGDとランダム特徴量の関係をリッジ回帰に結びつけ、カーネル作用素のスペクトル特性を活用して有限標本バウンドを導出する。
カーネル法とランダム行列理論の理論的道具を用いて、$M$、$n$、$T$、$b$、$\gamma_t$ の相互作用を特徴付ける。

実験結果

リサーチクエスチョン

RQ1ランダム特徴量 $M$ のうち、$O(1/\sqrt{n})$ の一般化誤差を達成するために必要な最適な数は何か？
RQ2学習率 $\gamma_t$、ミニバッチサイズ $b$、反復回数 $T$ は、解の安定性と一般化性能にどのように影響するか？
RQ3SGDとランダム特徴量による暗黙的正則化は、リッジ回帰のような明示的正則化と同等の統計的性能を達成できるか？
RQ4この枠組みにおいて、計算コスト（たとえば、データの走査回数、バッチサイズ）とテスト誤差の間にはどのようなトレードオフがあるか？
RQ5M \sim \sqrt{n} のとき、n が増加するに従って性能はどのようにスケーリングするか？さらに M を増やすと精度が向上するか？

主な発見

推定子は、$M = \Theta(\sqrt{n})$ 個のランダム特徴量で十分に $O(1/\sqrt{n})$ の一般化誤差を達成でき、リッジ回帰の最適レートと一致する。
$\sqrt{n}$ を超えてランダム特徴量の数を増やしても、テスト精度にさらなる向上は得られず、理論的予測が裏付けられる。
学習率 $\gamma_t$ はミニバッチサイズ $b$ に比例してスケーリングする必要があり、$b$ が大きいほど $\gamma_t$ を大きくとれる。
ミニバッチサイズが $\sqrt{n}$ を超える場合、データを1回の走査では最適誤差に到達できない。複数回の走査が必要である。
明示的正則化なしに、$M$、$T$、$b$、$\gamma_t$ を通じた暗黙的制御により最適な統計的性能が達成される。
SUSY や HIGGS データセットにおける数値実験により、$M \sim \sqrt{n}$ を超えるとテスト誤差が頭打つことが確認され、$\gamma_t$ が $b$ に比例してスケーリングされる場合にのみ最適誤差が達成される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。