Skip to main content
QUICK REVIEW

[論文レビュー] A no-regret generalization of hierarchical softmax to extreme multi-label classification

Marek Wydmuch, Kalina Jasińska|arXiv (Cornell University)|Oct 27, 2018
Text and Document Classification Technologies被引用数 41
ひとこと要約

本論文は確率的ラベルツリー(PLTs)を、極端な多ラベル分類のための階層的ソフトマックスのノーリグレットな一般化として提示し、マルチラベル設定で pick-one-label が一貫性を欠くことを証明し、PLTsに基づく extremeText (XT) を導入し、XT が最先端手法に対して性能と効率で優れていることを実証する。

ABSTRACT

Extreme multi-label classification (XMLC) is a problem of tagging an instance with a small subset of relevant labels chosen from an extremely large pool of possible labels. Large label spaces can be efficiently handled by organizing labels as a tree, like in the hierarchical softmax (HSM) approach commonly used for multi-class problems. In this paper, we investigate probabilistic label trees (PLTs) that have been recently devised for tackling XMLC problems. We show that PLTs are a no-regret multi-label generalization of HSM when precision@k is used as a model evaluation metric. Critically, we prove that pick-one-label heuristic - a reduction technique from multi-label to multi-class that is routinely used along with HSM - is not consistent in general. We also show that our implementation of PLTs, referred to as extremeText (XT), obtains significantly better results than HSM with the pick-one-label heuristic and XML-CNN, a deep network specifically designed for XMLC problems. Moreover, XT is competitive to many state-of-the-art approaches in terms of statistical performance, model size and prediction time which makes it amenable to deploy in an online system.

研究の動機と目的

  • XMLCの動機と、極端に大きなラベル空間におけるラベルの確率推定をスケーラブルかつ正確に行う必要性。
  • 確率的ラベルツリー(PLTs)を階層的ソフトマックス(HSM)の適切なマルチラベル一般化として提案。
  • PLTs の precision@k に対するゼロリグレット特性を理論的に保証。
  • fastText に基づく効率的な XT 実装を開発。
  • XT を強力なベースラインと経験的に比較し、精度、モデルサイズ、予測時間のトレードオフが優れていることを示す。

提案手法

  • XMLC を边ラベル確率 eta_j(x) と precision@k を主要指標として定式化。
  • HSM で用いられる pick-one-label 分解がマルチラベル precision@k に対して一般には一貫性がないことを示す。
  • ルート指示子を含む拡張コードを持つ PLTs を導入し、ノード分類器の独立訓練と予測時の確率校正を可能にする。
  • 理論的境界を提供:eta_j 推定誤差は経路ごとのノード分類器の後悔で有界(定理1)、reg_p@k はラベルごとの誤差で有界(定理2)。
  • XT の実装を説明:dense 表現上でのオンライン訓練、TF-IDF 重み付き特徴、L2 正則化、木は上下方向のバランスの取れたクラスタリングにより構築され、バランスの取れた多分岐構造を作成。
  • 木の選択(例えば Huffman 対 クラスタリング)を説明し、統計/計算トレードオフのためのバランスの正当化。

実験結果

リサーチクエスチョン

  • RQ1PLTs はマルチラベル極端分類のゼロリグレットな周辺確率推定を提供できるか。
  • RQ2pick-one-label のヒューリスティックは、precision@k のような一般的評価指標の下でマルチラベル XMLC に対して一貫しているか。
  • RQ3PLT ベースのアプローチ(XT)は HSM ベースの方法やディープネット(XML-CNN)と比較して、精度、モデルサイズ、速度でどのように異なるか。
  • RQ4多様な XMLC データセットに対して、安定した XT 性能を得る実践的なガイドライン(木の構築、特徴表現、正則化)は何か。

主な発見

  • PLTs はマルチラベル XMLC に対するノーリグレット周辺確率推定を提供し、pick-one-label アプローチの一貫性の欠如に対処する。
  • pick-one-label ヒューリスティックは precision@k に対して一般には一貫していないが、PLTs は強い適切複合損失の下で理論的保証とともにこれを克服する。
  • XT(extremeText)は HSM ベースの手法(fastText、Learned Tree)を大幅に上回り、最新の XMLC アプローチと競合しつつ、予測がはるかに速く、モデルも小さい。
  • XT は複数の大規模ベンチマークでほぼ最先端の precision@k を達成し、いくつかのベースライン(例:DiSMEC、PPDSparse)に比べオンライン予測が数オーダーの高速を実現。
  • 木構造(トップダウンクラスタリング)と TF-IDF 重み付け表現は、データセットを横断して XT の性能と頑健性に実質的に寄与。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。