QUICK REVIEW

[論文レビュー] DiSMEC - Distributed Sparse Machines for Extreme Multi-label Classification

Rohit Babbar, Bernhard Shoelkopf|arXiv (Cornell University)|Sep 8, 2016

Text and Document Classification Technologies参考文献 19被引用数 33

ひとこと要約

DiSMECは、ラベル行列の低ランク仮定を回避するため、スパース性誘導による明示的容量制御を伴う1対すべて線形分類器を用いる分散型でスパースな機械学習フレームワークを提案する。これは、FastXML より最大15%、SLEEC より10%高い精度を達成するとともに、モデルサイズを3桁削減し、ダブル並列化を用いて数十万のラベルで数時間で学習可能である。

ABSTRACT

Extreme multi-label classification refers to supervised multi-label learning involving hundreds of thousands or even millions of labels. Datasets in extreme classification exhibit fit to power-law distribution, i.e. a large fraction of labels have very few positive instances in the data distribution. Most state-of-the-art approaches for extreme multi-label classification attempt to capture correlation among labels by embedding the label matrix to a low-dimensional linear sub-space. However, in the presence of power-law distributed extremely large and diverse label spaces, structural assumptions such as low rank can be easily violated. In this work, we present DiSMEC, which is a large-scale distributed framework for learning one-versus-rest linear classifiers coupled with explicit capacity control to control model size. Unlike most state-of-the-art methods, DiSMEC does not make any low rank assumptions on the label matrix. Using double layer of parallelization, DiSMEC can learn classifiers for datasets consisting hundreds of thousands labels within few hours. The explicit capacity control mechanism filters out spurious parameters which keep the model compact in size, without losing prediction accuracy. We conduct extensive empirical evaluation on publicly available real-world datasets consisting upto 670,000 labels. We compare DiSMEC with recent state-of-the-art approaches, including - SLEEC which is a leading approach for learning sparse local embeddings, and FastXML which is a tree-based approach optimizing ranking based loss function. On some of the datasets, DiSMEC can significantly boost prediction accuracies - 10% better compared to SLECC and 15% better compared to FastXML, in absolute terms.

研究の動機と目的

10万～67万ラベルのラベル集合を対象とした極端多ラベル分類（XMC）における計算・ストレージ・統計的課題に対処する。
多くのラベルが少数のトレーニングインスタンスしか持たないパワー則分布ラベル空間において、低ランク埋め込みベース手法の限界を克服する。
ラベル行列の低ランク仮定に依存せずに、大規模ラベル集合上で効率的に学習・予測が可能なスケーラブルで分散型のフレームワークを開発する。
不要なパラメータを排除するためにモデルサイズを明示的に制御し、精度を損なわずコンパクトなモデルを実現する。

提案手法

ラベル間でのデータ並列化と特徴ブロック間でのモデル並列化を組み合わせた二重並列アーキテクチャを採用し、数十万のラベルにスケーリングする。
ラベル行列に低ランク仮定を一切用いない、分散型で学習された1対すべて線形分類器を採用する。
ハイパーパrameter Δ を用いた明示的スパース性誘導により、数十億の不適切なパラメータをフィルタリングする。
2段階の学習プロセスを導入：まずバッチで分類器を学習し、その後スパース性制御を適用してモデルサイズを削減しながら精度を維持する。
入力特徴とモデル重みの両方のスパース性を活用し、効率的なベクトル-行列内積演算により、並列化された高速予測を実現する。
Δ の調整により、モデルサイズと予測精度のトレードオフを制御する容量制御メカニズムを導入し、l1正則化とl2正則化の間を滑らかに補間する。

実験結果

リサーチクエスチョン

RQ1ラベル行列に低ランク構造を仮定しない分散型1対すべて学習フレームワークは、最先端の埋め込みベースおよびツリー基盤XMC手法を上回ることができるか？
RQ2ハイパーパrameter Δ を用いた明示的スパース性誘導は、極端多ラベルデータセットにおけるモデルサイズ削減を実現するとともに、精度を維持または向上させるのにどの程度有効か？
RQ3二重レイヤー並列化は、最大67万ラベルのデータセットにおいて、学習時間を短縮し、リアルタイム推論を可能にするか？
RQ4ラベル頻度のパワー則分布が、低ランク代替手法と比較して、非低ランク手法（例：DiSMEC）の性能にどのように影響を与えるか？

主な発見

WikiLSHTC-325Kデータセットにおいて、DiSMECは3GBのモデルサイズ制約下で52%を記録したSLEECを大きく上回り、64.4%のprecision@1を達成した。
一部のデータセットでは、DiSMECはSLEECに比べ10ポイント、FastXMLに比べ15ポイントの精度向上を絶対的に達成した。
WikiLSHTC-325Kデータセットでは、先行研究で報告された870GBから、明示的スパース性制御によりわずか3GBにモデルサイズを削減した。
Wikipedia-31Kデータセットは300コアで約10分、WikiLSHTC-325Kは400コアで約6時間で学習が完了し、学習時間を数週間から数時間に短縮した。
WikiLSHTC-325Kにおける予測速度は1テストインスタンスあたり3ミリ秒に達し、LEMLの1,000倍速く、FastXML（0.5ms）と同等の速度を実現し、リアルタイムデプロイメントを可能にした。
ハイパーパrameter Δ により、モデルのコンパクトさと精度の間のチューニングが可能であり、Δ=0.01がΔ=0と比較してわずかな精度低下で近似的に最適な性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。