Skip to main content
QUICK REVIEW

[論文レビュー] Sub-sampled Newton Methods with Non-uniform Sampling

Peng Xu, Jiyan Yang|arXiv (Cornell University)|Jul 2, 2016
Sparse and Compressive Sensing Techniques参考文献 25被引用数 69
ひとこと要約

本稿では、ヘッセ行列が低ランク構造を持つ大規模凸最適化問題に対して、非一様な部分サンプリングニュートン法(SSN)を提案する。ヘッセ行列の成分をブロックノルムの二乗値および部分レバレッジスコアに基づく非一様分布でサンプリングすることで、1反復あたりO(d log d)のサンプルで線形・2次収束を達成し、均一サンプリング法と比較して計算コストを顕著に低減するとともに、悪条件問題に対してもロバスト性を維持する。

ABSTRACT

We consider the problem of finding the minimizer of a convex function $F: \mathbb R^d ightarrow \mathbb R$ of the form $F(w) := \sum_{i=1}^n f_i(w) + R(w)$ where a low-rank factorization of $ abla^2 f_i(w)$ is readily available. We consider the regime where $n \gg d$. As second-order methods prove to be effective in finding the minimizer to a high-precision, in this work, we propose randomized Newton-type algorithms that exploit extit{non-uniform} sub-sampling of $\{ abla^2 f_i(w)\}_{i=1}^{n}$, as well as inexact updates, as means to reduce the computational complexity. Two non-uniform sampling distributions based on {\it block norm squares} and {\it block partial leverage scores} are considered in order to capture important terms among $\{ abla^2 f_i(w)\}_{i=1}^{n}$. We show that at each iteration non-uniformly sampling at most $\mathcal O(d \log d)$ terms from $\{ abla^2 f_i(w)\}_{i=1}^{n}$ is sufficient to achieve a linear-quadratic convergence rate in $w$ when a suitable initial point is provided. In addition, we show that our algorithms achieve a lower computational complexity and exhibit more robustness and better dependence on problem specific quantities, such as the condition number, compared to similar existing methods, especially the ones based on uniform sampling. Finally, we empirically demonstrate that our methods are at least twice as fast as Newton's methods with ridge logistic regression on several real datasets.

研究の動機と目的

  • n ≫ d である大規模問題におけるニュートン法の高い計算コストに対処すること。
  • ヘッセ行列の近似に均一サンプリングの代わりに非一様サンプリング戦略を導入することで、収束のロバスト性と効率を向上させること。
  • 不正確な更新と非一様サンプリングを用いることで、1反復あたりの計算量を削減しつつ線形・2次収束を達成すること。
  • 悪条件問題の設定において、均一サンプリング法や1次最適化手法よりも優れた性能を示すことを実証すること。
  • レバレッジスコアおよびブロックノルムに基づく非一様サンプリングが、条件数に依存する依存性を改善し、計算オーバーヘッドを低減することを示すこと。

提案手法

  • ブロックノルムの二乗値および部分レバレッジスコアに基づく非一様サンプリング分布を、ヘッセ行列成分∇²fᵢ(w)の上に用い、影響力の高い項を優先する。
  • サンプリング分布の逆確率を重みとして用い、サンプルされたAᵢᵀ(w)Aᵢ(w)項の重み付き和として近似ヘッセ行列を構築する。
  • 部分サンプリングされたヘッセ行列を用いてニュートンステップを近似的に解くことで、不正確な更新を採用し、1反復あたりの計算コストを削減する。
  • 信頼領域に類似した更新戦略にラインサーチを組み合わせ、目的関数の十分な減少を保証する。
  • 反復間でレバレッジスコアを再利用することで、毎回再計算する必要を避け、計算オーバーヘッドを低減する。
  • 2段階アプローチを採用:初期段階では均一サンプリングで良い初期点に到達し、その後非一様サンプリングに移行して高速収束を達成する。

実験結果

リサーチクエスチョン

  • RQ1ヘッセ行列成分の非一様サンプリングは、大規模ニュートン型手法における収束速度とロバスト性を向上させ得るか?
  • RQ2最適な収束レートを達成するための最小サンプル数で、最良のサンプリング分布(例:レバレッジスコア、ノルムの二乗値)は何か?
  • RQ3部分サンプリングニュートン法の計算複雑度は、問題次元dおよび条件数κとどのようにスケーリングされるか?
  • RQ4均一サンプリングと比較して、非一様サンプリングは悪条件問題に対する感受性を低減するか?
  • RQ5部分サンプリングヘッセ行列を用いた不正確な更新は、1反復あたりの計算コストを削減しつつも、線形・2次収束を維持できるか?

主な発見

  • 非一様サンプリングを用いた提案されたSSN法は、ヘッセ行列成分をO(d log d)程度サンプリングすることで、不正確な更新が行われても線形・2次収束を達成する。
  • 部分レバレッジスコアおよびブロックノルムの二乗値に基づく非一様サンプリングは、均一サンプリングを上回り、特に条件数が高い悪条件問題において顕著に優れる。
  • Adult、Forest、CT Sliceといった実データセットにおいて、リッジロジスティック回帰の文脈で、標準的なニュートン法と比較して少なくとも2倍速い。
  • 条件数が変化しても安定した性能を示す一方、均一サンプリングではκが増加するにつれて著しく性能が低下する。
  • 反復間でレバレッジスコアを再利用することで、計算コストを削減しつつ収束品質を損なわない。
  • 実験的結果から、10⁻⁸の相対誤差を達成するまでの解の誤差が、LBFGS、GD、AGDよりも速く、特に悪条件領域で顕著に優れた性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。