QUICK REVIEW

[論文レビュー] Stochastic Dual Coordinate Ascent with Adaptive Probabilities

Dominik Csiba, Zheng Qu|arXiv (Cornell University)|Feb 27, 2015

Stochastic Gradient Optimization Techniques参考文献 45被引用数 31

ひとこと要約

本稿では、最適化の進行に応じて双対変数の選択確率を動的に調整する、AdaSDCAと呼ばれる適応的確率選択を導入した確率的双対座標降下法を提案する。この手法は、固定確率の重要度サンプリングよりも理論的に優れた収束速度を達成する。さらに、実用的な変種であるAdaSDCA+を導入し、複数のデータセットにおける実験で非適応的手法を上回る性能を示した。

ABSTRACT

This paper introduces AdaSDCA: an adaptive variant of stochastic dual coordinate ascent (SDCA) for solving the regularized empirical risk minimization problems. Our modification consists in allowing the method adaptively change the probability distribution over the dual variables throughout the iterative process. AdaSDCA achieves provably better complexity bound than SDCA with the best fixed probability distribution, known as importance sampling. However, it is of a theoretical character as it is expensive to implement. We also propose AdaSDCA+: a practical variant which in our experiments outperforms existing non-adaptive methods.

研究の動機と目的

固定確率分布が確率的双対座標降下（SDCA）において、最適でない収束速度を引き起こすという限界を是正すること。
最適性に近づくプロセスに応じて選択確率を動的に更新する理論的に優れた適応的手法を開発すること。
理論的バージョンの計算コストをかけず、強力な性能を維持する実用的変種を設計すること。
実験を通じて、適応的アプローチが反復回数および実行時間の両面で、既存の非適応的SDCA手法を上回ることを示すこと。

提案手法

現在の反復点の情報を用いて、各反復で双対変数上の確率分布を変更するSDCAの適応的変種、AdaSDCAを提案する。
最適化の進行に伴い双対変数の重要度が変化することを反映する動的確率更新ルールを用い、収束複雑度を向上させる。
固定確率法（重要度サンプリング）の最良のものよりも、理論的に優れた収束複雑度境界をAdaSDCAに対して導出する。
オンラインで双対変数の進行状況を推定することで、適応的確率を近似する計算効率の良い変種、AdaSDCA+を導入する。
滑らかで強い凸性を持つ損失関数および正則化関数を用いた、正則化された経験的リスク最小化問題にこの手法を適用する。
凸共役双対性を活用して双対問題を表現し、閉形式の解を介した座標更新を可能にする。

実験結果

リサーチクエスチョン

RQ1SDCAにおける適応的確率選択は、固定確率の重要度サンプリングよりも理論的に優れた収束複雑度を達成できるか？
RQ2最適化の進行に伴い、双対空間で選択確率を動的に調整することで、理論的影響は何か？
RQ3実用的に、計算コストを削減しながらも性能を維持するための適応的確率をどのように近似できるか？
RQ4提案された適応的手法は、実世界のデータセットにおいて、反復回数および実行時間の両面で非適応的SDCAの変種を上回るか？
RQ5AdaSDCA+の性能は、ミニバッチサイズ m などのハイパーパrameterにどれほど敏感か？

主な発見

AdaSDCAは、適応的確率選択のおかげで、固定確率法（重要度サンプリングを含む）よりも理論的に優れた収束複雑度境界を達成する。
AdaSDCAの理論的利点は、高い計算コストによって制限され、直接実装には不適切である。
AdaSDCA+は、適応的利点を維持しつつ計算的に実行可能である実用的代替手法として提案される。
w8a、dorothea、mushrooms、cov1 などのデータセットにおける実験では、AdaSDCA+が非適応的手法を反復回数および実行時間の両面で上回った。
AdaSDCA+の性能は、異なるデータセットや損失関数（二次損失および滑らかでないヒンジ損失を含む）に対して安定しており、ロバストである。
最適なミニバッチサイズ m はデータセットによって異なるため、問題固有のチューニングが有効であることが示唆されたが、AdaSDCA+は幅広い m の値においても優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。