Skip to main content
QUICK REVIEW

[論文レビュー] One-vs-Each Approximation to Softmax for Scalable Estimation of Probabilities

Michalis K. Titsias|arXiv (Cornell University)|Sep 23, 2016
Machine Learning and Algorithms参考文献 15被引用数 38
ひとこと要約

本稿では、訓練インスタンスとクラスラベルの両方をサブサンプリングすることにより、スケーラブルで二重ステochasticな推定を可能にする、ソフトマックス関数における新規の one-vs-each 下界を提案する。この下界は正確なソフトマックス確率の厳密な下界であり、元のコスト関数が凸である場合に凸性を保ち、最小限の計算オーヘッドで大規模な多クラス分類において最先端の性能を達成する。

ABSTRACT

The softmax representation of probabilities for categorical variables plays a prominent role in modern machine learning with numerous applications in areas such as large scale classification, neural language modeling and recommendation systems. However, softmax estimation is very expensive for large scale inference because of the high cost associated with computing the normalizing constant. Here, we introduce an efficient approximation to softmax probabilities which takes the form of a rigorous lower bound on the exact probability. This bound is expressed as a product over pairwise probabilities and it leads to scalable estimation based on stochastic optimization. It allows us to perform doubly stochastic estimation by subsampling both training instances and class labels. We show that the new bound has interesting theoretical properties and we demonstrate its use in classification problems.

研究の動機と目的

  • 大規模なクラス数(例:数万〜数百万)を持つモデルにおける正確なソフトマックス推定の計算的非実行可能性に対処すること。
  • 理論的保証を維持しつつ、計算的に効率的でスケーラブルなソフトマックス確率の近似を構築すること。
  • 訓練インスタンスとクラスラベルの独立したサブサンプリングを可能にする二重ステochastic最適化を可能にすること。
  • 非パラメトリックな状況において、最大尤度推定の完全な代用として近似が保たれることを保証すること。
  • 凸で微分可能であり、スパース更新に対応可能な勾配降下法をサポートする下界を提供すること。

提案手法

  • 恒等式 $ p(y=k) = \frac{1}{1 + \sum_{m \neq k} e^{-(f_k - f_m)}} $ を用いて、ソフトマックス確率における下界を導出する。
  • 非負の $ \alpha_i \geq 0 $ に対して成り立つ不等式 $ 1 + \sum_i \alpha_i \leq \prod_i (1 + \alpha_i) $ を適用し、$ p(y=k) \geq \prod_{m \neq k} \sigma(f_k - f_m) $ を得る。ここで $ \sigma $ はシグモイド関数を表す。
  • 得られた下界を、データとクラスの両方のサブサンプリングを可能にする二重ステochastic最適化フレームワークにおける変分下界として使用する。
  • 各ステップで真のクラスと他のクラスの小さなランダムサブセットのみを選択することで、スパース更新を伴う確率的勾配降下法を実行する。
  • 元のソフトマックスコスト関数が凸である場合に、下界の凸性を維持し、最適化の安定性を保証する。
  • エポックごとに学習率を半分にするスケジューリングを用いることで、大規模な設定における収束を改善する。

実験結果

リサーチクエスチョン

  • RQ1大規模な分類において、計算的に効率的かつ理論的に妥当なソフトマックス関数の下界を構築できるか?
  • RQ2提案された one-vs-each 下界は、非パラメトリックな状況において、正確な最大尤度推定のグローバル最適解を保持するか?
  • RQ3下界は、訓練インスタンスとクラスラベルの独立したサブサンプリングを可能にする二重ステochastic最適化をサポートできるか?
  • RQ4既存の手法(例:サンプリングソフトマックスや階層的ソフトマックス)と比較して、大規模な多クラス問題における精度と効率の面でどのように差がつくか?
  • RQ5元のソフトマックスコスト関数が凸である場合に、下界も凸性を保つのか?これにより、安定的で効率的な最適化が可能になるか?

主な発見

  • one-vs-each 下界は、ペアワイズシグモイド確率の積から導出された、正確なソフトマックス確率の厳密な下界である。
  • 非パラメトリックな状況において、この下界は正確な最大尤度推定解と同一のグローバル最適解を持つため、推定の完全な代用となる。
  • 本手法は、訓練インスタンスとクラスの両方を独立してサブサンプリング可能であり、計算コストを著しく削減する二重ステochastic最適化を可能にする。
  • AmazonCat-13K データセットでは、テスト誤差が 53.11% にまで低下し、ランダム推測やマジョリティクラスベースライン(79% の誤差)を著しく上回った。
  • ミニバッチサイズが1で、1回の反復あたり5つのクラスをサンプリングするスパース更新を用いた場合、標準PC上でわずか26分でトレーニングが完了した。
  • 元のコスト関数が凸である場合に、下界も凸性を保つため、最適化中の収束安定性が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。