QUICK REVIEW

[論文レビュー] Stochastic Negative Mining for Learning with Large Output Spaces

Sashank J. Reddi, Satyen Kale|arXiv (Cornell University)|Oct 16, 2018

Imbalanced Data Classification Techniques被引用数 27

ひとこと要約

本稿では、大規模な出力空間を有する検索タスクにおけるセット値分類器の訓練のための統計的に妥当でスケーラブルな手法、Stochastic Negative Mining (SNM) を提案する。Ordered Weighted Losses (OWLs) を導入することで、データと損失パラメータの弱い条件下で補正可能かつ凸であるような損失関数の族を構築し、全ラベルのスコア評価を避けるためにネガティブ例のサブセットをサンプリングする。このアプローチにより、Amazon670K や WikiLSHTC といった大規模データセットにおいて、標準的なネガティブサンプリングに比べて再現率と正確率の両面で顕著な向上が達成される。

ABSTRACT

We consider the problem of retrieving the most relevant labels for a given input when the size of the output space is very large. Retrieval methods are modeled as set-valued classifiers which output a small set of classes for each input, and a mistake is made if the label is not in the output set. Despite its practical importance, a statistically principled, yet practical solution to this problem is largely missing. To this end, we first define a family of surrogate losses and show that they are calibrated and convex under certain conditions on the loss parameters and data distribution, thereby establishing a statistical and analytical basis for using these losses. Furthermore, we identify a particularly intuitive class of loss functions in the aforementioned family and show that they are amenable to practical implementation in the large output space setting (i.e. computation is possible without evaluating scores of all labels) by developing a technique called Stochastic Negative Mining. We also provide generalization error bounds for the losses in the family. Finally, we conduct experiments which demonstrate that Stochastic Negative Mining yields benefits over commonly used negative sampling approaches.

研究の動機と目的

大出力空間を有する検索タスクにおける統計的に妥当でスケーラブルな訓練手法の不足を解消すること。
ベイズ最適予測子への収束を保証するように設計された補正可能で凸な損失関数族を構築すること。
全ラベルのスコア評価を伴わずに高次元出力空間におけるこれらの損失関数の実用的最適化を可能にすること。
損失関数のハイパーパrameter選択をガイドする一般化誤差バウンドを提供すること。
実験的に SNM が標準的なネガティブサンプリングに比べて検索性能で優れていることを検証すること。

提案手法

データと損失パラメータの弱い条件下で補正可能かつ凸であることを保証する、Ordered Weighted Losses (OWLs) と呼ばれる損失関数族を導入する。
全ラベルスコア評価を避けるために、少数のクラスをサンプリングし、その中で上位k個のスコアを持つものをネガティブ例として扱う、Stochastic Negative Mining (SNM) を提案する。
上位k個のスコアを持つ非正例をハードネガティブ例として扱う top-k SNM の変種を採用し、モデルのロバスト性を向上させる。
RademacherおよびGaussian複雑度を用いて OWLs の一般化誤差バウンドを導出し、損失パラメータ選択の理論的根拠を提供する。
埋め込み層には大きな学習率を用いた確率的勾配降下法、線形層にはモーメンタムを用いた訓練手法を採用する。
Hinge損失を用いた BOWL (Binary-Weighted Loss) の設定下で本手法を適用し、全データセットで一貫した性能向上を示した。

実験結果

リサーチクエスチョン

RQ1大出力空間検索タスクに適した、統計的に補正可能で凸な損失関数族を設計することは可能か？
RQ2このような損失関数は、すべての可能な出力クラスのスコア評価を伴わずに実用的に最適化可能か？
RQ3Stochastic Negative Mining は、標準的なネガティブサンプリングに比べて一般化性能および検索性能を向上させるか？
RQ4OWLs の一般化誤差バウンドは、実際の損失パラメータ選択にどのように役立つか？
RQ5SNM は深層学習モデルと組み合わせることで、大規模マルチラベルおよびマルチクラス検索タスクの性能向上に寄与できるか？

主な発見

k=1 の top-k Stochastic Negative Mining (SNM) が、全データセットで最良の性能を達成し、標準的なネガティブサンプリングを顕著に上回る。
Amazon670K では、SNM が P@3 40.37 を達成し、ネガティブサンプリングに比べて2.5%の向上を示し、P@5 は36.92 に達し、再現率の向上が顕著である。
SNM は、追加の計算コストを要せず、むしろわずかに高い効率性を示しながら、ネガティブサンプリングに比べて Precision@k を最大1.3倍まで向上させる。
SLEEC や LEML といった埋め込みベースのモデルよりも優れた性能を示し、PfastreXML や DiSMEC といったより複雑なモデルと同等の性能を達成する。
OWLs の一般化誤差バウンドが導出され、実際の損失パラメータ選択に理論的根拠を提供する。
実験結果から、SNM は単純なニューラルネットワークアーキテクチャでも有効であることが確認され、より高度なモデルと組み合わせることで強い潜在的性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。