Skip to main content
QUICK REVIEW

[論文レビュー] Stochastic Majorization-Minimization Algorithms for Large-Scale Optimization

Julien Mairal|arXiv (Cornell University)|Jun 19, 2013
Sparse and Compressive Sensing Techniques参考文献 32被引用数 89
ひとこと要約

本稿では、1つのデータポイントを用いてスチュアティックに更新されるサロゲート関数を繰り返し最小化することで、大規模最適化のための確率的主要化最小化(SMM)アルゴリズムを提案する。凸問題ではO(1/√n)の収束速度を達成し、非凸設定では定常点へのほとんど確実な収束を示し、機械学習および信号処理分野における大規模または無限のデータセットに対するスケーラブルな解決策を可能にする。

ABSTRACT

Majorization-minimization algorithms consist of iteratively minimizing a majorizing surrogate of an objective function. Because of its simplicity and its wide applicability, this principle has been very popular in statistics and in signal processing. In this paper, we intend to make this principle scalable. We introduce a stochastic majorization-minimization scheme which is able to deal with large-scale or possibly infinite data sets. When applied to convex optimization problems under suitable assumptions, we show that it achieves an expected convergence rate of $O(1/\sqrt{n})$ after $n$ iterations, and of $O(1/n)$ for strongly convex functions. Equally important, our scheme almost surely converges to stationary points for a large class of non-convex problems. We develop several efficient algorithms based on our framework. First, we propose a new stochastic proximal gradient method, which experimentally matches state-of-the-art solvers for large-scale $\ell_1$-logistic regression. Second, we develop an online DC programming algorithm for non-convex sparse estimation. Finally, we demonstrate the effectiveness of our approach for solving large-scale structured matrix factorization problems.

研究の動機と目的

  • 機械学習および信号処理分野における大規模または無限のデータセットに対する主要化最小化(MM)アルゴリズムのスケーラビリティを向上させること。
  • データセットサイズに依存しないメモリ使用量を実現するため、単一のデータポイントを用いてサロゲート関数を更新するMMの確率的変種を開発すること。
  • やや弱い仮定の下で、凸および非凸最適化問題の両方に対して理論的収束保証を確立すること。
  • 実用的応用(例:ℓ1-ロジスティック回帰および構造的行列因子分解)を想定した、効率的なアルゴリズムをフレームワークに基づいて設計すること。

提案手法

  • 各反復で1つの観測データポイントに基づいてサロゲート関数を構築する確率的主要化最小化スキームを定式化する。
  • 1次近似関数を用い、ρ-strongly凸であり、目的関数を上回り、近似誤差の勾配がL-Lipschitz連続であるようなサロゲート関数を用いる。
  • オンラインのデータポイントを用いてサロゲート関数を段階的に更新し、トレーニングセットサイズに依存しないメモリ複雑度を確保する。
  • 新しい確率的近位勾配法を用いて、複合的および制約付き問題にこのスキームを適用する。
  • スparser推定のためのオンラインDCプログラミングを用いて、非凸問題へのフレームワークの拡張を行う。
  • 柔軟な損失関数および正則化関数を用いた、構造的行列因子分解へのアルゴリズムの適用。

実験結果

リサーチクエスチョン

  • RQ1主要化最小化は、収束保証を維持したまま、大規模または無限のデータセットにスケーラブルに拡張可能か?
  • RQ2凸および強凸問題に対して、確率的MMアルゴリズムが達成可能な収束速度は何か?
  • RQ3非凸最適化問題において、確率的MMスキームはほとんど確実に定常点に収束するか?
  • RQ4提案された確率的近位勾配法は、大規模なℓ1-ロジスティック回帰タスクにおいて、最先端のソルバーと比較してどのように性能を発揮するか?
  • RQ5複雑な正則化および損失関数を有するオンライン設定において、このフレームワークは構造的行列因子分解を効果的に処理できるか?

主な発見

  • 確率的MMアルゴリズムは、凸問題では期待収束速度O(1/√n)、強凸問題ではO(1/n)をn反復後に達成する。
  • 非凸問題において、適切な仮定の下で、アルゴリズムはほとんど確実に定常点の集合に収束する。
  • 提案された確率的近位勾配法は、大規模なℓ1-ロジスティック回帰タスクにおいて、最先端のソルバーと同等の性能を示す。
  • オンラインDCプログラミングアルゴリズムは、大規模な非凸スパース推定問題において、バッチ手法を上回る性能を発揮する。
  • フレームワークは、柔軟な損失関数および正則化関数を用いた効率的なオンライン構造的行列因子分解を可能にし、先行研究を拡張する。
  • 理論的分析により、一様なサロゲート関数の収束および近似誤差の勾配の有界性といった、やや弱い条件下での収束が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。