Skip to main content
QUICK REVIEW

[論文レビュー] An Accelerated Proximal Coordinate Gradient Method and its Application to Regularized Empirical Risk Minimization

Qihang Lin, Zhaosong Lu|arXiv (Cornell University)|Jul 4, 2014
Stochastic Gradient Optimization Techniques参考文献 36被引用数 39
ひとこと要約

本稿では、凸複合最適化のための加速型プロキシマル座標勾配(APCG)法を提案する。この手法は、ネステロフ風の加速とランダム化ブロック座標更新を組み合わせることで、収束速度を向上させる。強い凸性がある問題では加速線形収束率を達成し、強い凸性がない場合でも改善された非線形収束率を達成する。実際の不適応性の高い正則化された経験的リスク最小化問題において、SDCA や AFG より優れた性能を発揮する。

ABSTRACT

We consider the problem of minimizing the sum of two convex functions: one is smooth and given by a gradient oracle, and the other is separable over blocks of coordinates and has a simple known structure over each block. We develop an accelerated randomized proximal coordinate gradient (APCG) method for minimizing such convex composite functions. For strongly convex functions, our method achieves faster linear convergence rates than existing randomized proximal coordinate gradient methods. Without strong convexity, our method enjoys accelerated sublinear convergence rates. We show how to apply the APCG method to solve the regularized empirical risk minimization (ERM) problem, and devise efficient implementations that avoid full-dimensional vector operations. For ill-conditioned ERM problems, our method obtains improved convergence rates than the state-of-the-art stochastic dual coordinate ascent (SDCA) method.

研究の動機と目的

  • 凸複合最適化問題に対して、より高速な収束を達成する加速型ランダム化プロキシマル座標勾配法の開発を目的とする。
  • 既存の手法が不適応性の高い正則化された経験的リスク最小化(ERM)問題を処理する際の限界を克服することを目的とする。
  • 全次元ベクトル演算を避けることで、大規模な機械学習問題におけるスケーラビリティを向上させる効率的な実装を可能とすることを目的とする。
  • 強い凸性のもとでは加速線形収束を達成し、一般の場合には加速非線形収束を達成することを目的とする。

提案手法

  • APCG 法は、滑らか関数 f とブロック分離可能な非滑らか関数 Ψ の和を最小化するために、ランダム化ブロック座標更新とプロキシマル部分問題を用いる。
  • Nesterov の加速技術をモーメンタムに似た更新と推定列フレームワークを介して組み込み、収束速度を向上させる。
  • 収束率 ρk+1 → 0 の際のオーバーフローを防ぐために、スケーリングされた変数 u̅ と p̅ を用いて、2つの補助ベクトル u と p を数値的に安定に更新する。
  • ステップサイズを動的に調整するためのラインサーチ戦略を適用し、実用的性能を向上させる。
  • スパarsity とブロック構造を活用することで、全次元ベクトル演算を回避し、大規模データセット上で効率的な計算を可能にする。
  • ERM 問題の文脈では、滑らか化されたハードマージン損失を用い、双対問題を再定式化して効率的な座標更新を可能にする。

実験結果

リサーチクエスチョン

  • RQ1正則化された ERM 問題に対して、既存のランダム化座標降下法よりも高速な収束を達成できる加速型プロキシマル座標勾配法を設計できるか?
  • RQ2非滑らかでブロック分離可能な正則化が存在する状況において、加速とブロック座標更新を効果的に組み合わせられるか?
  • RQ3提案された APCG 法は、不適応性の高い ERM 問題において、SDCA や AFG よりも改善された収束速度を達成するか?
  • RQ4全次元ベクトル演算を避けることで、効率的な実装が可能となり、スケーラビリティが保たれるか?

主な発見

  • APCG 法は、強い凸性がある問題に対して、加速線形収束率を達成し、既存のランダム化プロキシマル座標勾配法を上回る。
  • 強い凸性がない問題では、APPROX 法の加速非線形収束率を回復し、統一的なフレームワークを提供する。
  • 不適応性の高い ERM 問題において、APCG は SDCA や AFG よりもより効果的にプライマル目的関数ギャップとプライマル・デュアルギャップを減少させる。特に正則化パラメータ λ = 10−8 の場合に顕著である。
  • RCV1、covtype、News20 データセットにおける数値実験では、最終的なプロキシマル全勾配ステップがなくても、APCG はあらゆる設定で優れた性能を維持する。
  • スパース演算と安定な変数スケーリングのおかげで、各反復の計算コストは SDCA の約2倍にとどまり、数値的に安定で効率的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。