QUICK REVIEW

[論文レビュー] Online and Stochastic Gradient Methods for Non-decomposable Loss Functions

Purushottam Kar, Harikrishna Narasimhan|arXiv (Cornell University)|Oct 24, 2014

Stochastic Gradient Optimization Techniques参考文献 8被引用数 29

ひとこと要約

この論文は、精度@k や pAUC などの非分解型損失関数において、極めて重要な不均衡学習の文脈で、新しいオンラインかつ確率的勾配フレームワークを提案する。構造的補題を用いて部分線形なリグレットバウンドを確立し、経験的リスク最小化器に確実に収束するスケーラブルなソルバーを構築した。その結果、カットプレーン法と比較して速度が桁違いに優れている。

ABSTRACT

Modern applications in sensitive domains such as biometrics and medicine frequently require the use of non-decomposable loss functions such as precision@k, F-measure etc. Compared to point loss functions such as hinge-loss, these offer much more fine grained control over prediction, but at the same time present novel challenges in terms of algorithm design and analysis. In this work we initiate a study of online learning techniques for such non-decomposable loss functions with an aim to enable incremental learning as well as design scalable solvers for batch problems. To this end, we propose an online learning framework for such loss functions. Our model enjoys several nice properties, chief amongst them being the existence of efficient online learning algorithms with sublinear regret and online to batch conversion bounds. Our model is a provable extension of existing online learning models for point loss functions. We instantiate two popular losses, prec@k and pAUC, in our model and prove sublinear regret bounds for both of them. Our proofs require a novel structural lemma over ranked lists which may be of independent interest. We then develop scalable stochastic gradient descent solvers for non-decomposable loss functions. We show that for a large family of loss functions satisfying a certain uniform convergence property (that includes prec@k, pAUC, and F-measure), our methods provably converge to the empirical risk minimizer. Such uniform convergence results were not known for these losses and we establish these using novel proof techniques. We then use extensive experimentation on real life and benchmark datasets to establish that our method can be orders of magnitude faster than a recently proposed cutting plane method.

研究の動機と目的

F-measure や Precision@k、pAUC のような非分解型損失関数に対する、原理的で整合性のあるオンラインおよび確率的最適化手法の不足を解消すること。
既存の分解型損失関数向けモデルを一般化し、インクリメンタル学習とオンラインからバッチへの変換を可能にするオンライン学習フレームワークを設計すること。
F-measure や pAUC のような広範な非分解型損失関数に対して、収束が保証される確率的勾配ソルバーを開発すること。
順序付きリストに関する新しい構造的補題を用いて、部分線形なリグレットと経験的リスク最小化への収束という、革新的な理論的保証を確立すること。

提案手法

安定性に基づくアプローチにより、インstantaneousペナルティを定義することで、非分解型損失関数のための原理的オンライン学習フレームワークを提案。分解型損失関数に適用した場合でも、既存のオンラインモデルと整合性を持つことを保証する。
フレームワーク内に Follow-the-Regularized-Leader (FTRL) アルゴリズムを導入し、一般的な安定性条件の下で ${\cal O}(1/\sqrt{T})$ のリグレットを証明する。
Precision@k および pAUC の凸な代替損失関数にこのフレームワークを適用し、順序付きリストの測定値のリプシッツ連続性に関する新しい構造的補題を用いて、部分線形なリグレットを証明する。
構造的補題を活用することで、一様収束に類似した結果を得られ、非分解型損失関数のための確率的勾配降下ソルバーを構築する。
pAUC に対しては、上位ランクのネガティブ例をフィルタリングし、ポジティブ例とフィルタリングされたネガティブ例との間で部分勾配を計算する 1PMB および 2PMB の効率的ルーチンを実装。1エポックあたりの計算量は ${\cal O}(s\log s)$ となる。
pAUC に対しては、代替損失関数を次のように定式化する：$\ell_{\text{pAUC}}({\mathbf{w}}) = \sum_{i:y_i>0} \ell^{+}_{S_-}(x_i, {\mathbf{w}})$、ここで $\ell^{+}_{S_-}$ は上位-$\beta$ 分率のネガティブ例におけるヒンジ損失を統合する。

実験結果

リサーチクエスチョン

RQ1分解型損失関数向けの既存モデルを一般化し、インクリメンタル学習とオンラインからバッチへの変換を可能にする、非分解型損失関数向けの原理的オンライン学習フレームワークを設計可能か？
RQ2安定性条件の下で、Precision@k や pAUC のような非分解型損失関数に対するオンライン学習において、部分線形なリグレットバウンドが成立するか？
RQ3F-measure や pAUC のような非分解型損失関数に対して、確率的勾配法が経験的リスク最小化器に収束することが証明可能か？
RQ4非分解型損失関数のための一様収束およびリグレット解析を可能にする、順序付きリストの新たな構造的性質は何か？

主な発見

提案されたオンラインフレームワークは、安定性条件の下で Precision@k および pAUC に対して ${\cal O}(1/\sqrt{T})$ のリグレットを達成し、これら非分解型損失関数に対する初めての保証付き部分線形リグレットバウンドを確立した。
内積のソート済みリストに関する新しい構造的補題により、順序付きリストの測定値のリプシッツ連続性が証明され、リグレットおよび収束解析が可能になった。
pAUC、Precision@k、F-measure に対する確率的勾配ソルバーは、経験的リスク最小化器に保証付きで収束する。収束性は、新しい一様収束に類似した結果によって確立された。
KDD 2008 データセットにおいて、本手法は 30ms で pAUC 64.8% を達成し、同等の性能を得るためには 1.2 秒以上を要するカットプレーン法を大きく上回った。
実世界およびベンチマークデータセットにおいて、最先端のカットプレーン技術と比較して、本手法は桁違いに高速でありながら、精度を維持または向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。