Skip to main content
QUICK REVIEW

[論文レビュー] Fast Label Embeddings for Extremely Large Output Spaces

Paul Mineiro, Nikos Karampatziakis|arXiv (Cornell University)|Mar 1, 2015
Text and Document Classification Technologies参考文献 5被引用数 2
ひとこと要約

この論文では、応答行列の上位特異ベクトルを効率的に近似するためにランダム化SVDを活用し、極めて大きな出力空間における低次元ラベル埋め込みを学習する高速なランダム化アルゴリズムであるRembrandtを提案する。この手法は、ナイーブなアプローチと比較して指数的スピードアップを達成しながら、大規模なテキスト分類データセットで最先端の性能を発揮する。

ABSTRACT

Many modern multiclass and multilabel problems are characterized by increasingly large output spaces. For these problems, label embeddings have been shown to be a useful primitive that can improve computational and statistical efficiency. In this work we utilize a correspondence between rank constrained estimation and low dimensional label embeddings that uncovers a fast label embedding algorithm which works in both the multiclass and multilabel settings. The result is a randomized algorithm whose running time is exponentially faster than naive algorithms. We demonstrate our techniques on two large-scale public datasets, from the Large Scale Hierarchical Text Challenge and the Open Directory Project, where we obtain state of the art results. 1 Contributions We provide a statistical motivation for label embedding by demonstrating that the optimal rank-constrained least squares estimator can be constructed from an optimal unconstrained estimator of an embedding of the labels. Thus, embedding can provide beneficial sample complexity reduction even if computational constraints are not binding. We identify a natural object to define label similarity: the expected outer product of the conditional label probabilities. In particular, in conjunction with a low-rank constraint, this indicates two label embeddings are similar when their conditional probabilities are linearly dependent across the dataset. This unifies prior work utilizing the confusion matrix for multiclass [1] and the empirical label covariance for multilabel [5]. We apply techniques from randomized linear algebra [3] to develop an efficient and scalable algorithm for constructing the embeddings, essentially via a novel randomized algorithm. Intuitively, this technique implicitly decomposes the prediction matrix of a model which would be prohibitively expensive to form explicitly. 2 Proposed Algorithm Our proposal is Rembrandt, described in Algorithm 1. We use the top right singular space of ΠX,LY as a label embedding, or equivalently, the top principal components of Y ΠX,LY . Using randomized techniques, we can Algorithm 1 Rembrandt: Response EMBedding via RANDomized Techniques 1: function REMBRANDT(k,X ∈ Rn×d, Y ∈ Rn×c) 2: (p, q)← (20, 1) . These hyperparameters rarely need adjustment. 3: Q← randn(c, k + p) 4: for i ∈ {1, . . . , q} do . Randomized range finder for Y ΠX,LY 5: Z ← arg min ‖Y Q−XZ‖F 6: Q← orthogonalize(Y >XZ) 7: end for . NB: total of (q + 1) data passes, including next line 8: F ← (Y >XQ)>(Y >XQ) . F ∈ R(k+p)×(k+p) is “small” 9: (V,Σ)← eig(F, k) 10: V ← QV . V ∈ Rc×k is the embedding 11: return (V,Σ) 12: end function

研究の動機と目的

  • 極めて大きな出力空間におけるマルチクラスおよびマルチラベル学習の計算的・統計的非効率性を解消すること。
  • ランク制約推定と最適なラベル埋め込みとの間の統計的原則に基づく基礎を提供すること。
  • 誤り行列とラベル共分散に基づく先行研究を、条件付きラベル確率の期待外積を通じた共通のラベル類似度の概念によって統一すること。
  • 大規模な予測行列を明示的に構築することなく、スケーラブルなランダム化アルゴリズムを開発すること。
  • 最小限のハイパーパrameterチューニングで、現実世界の大規模データセットにおいて最先端の性能を示すこと。

提案手法

  • 行列 ΠX,LY が表す条件付きラベル確率の期待値を表す、上位右特異空間を近似するためにランダム化された範囲探索を用いる。
  • フルな応答行列を明示的に計算しないために、指数的スピードアップを実現するランダム化SVD技術を適用する。
  • 数値的安定性を保つために直交化を用い、q回のランダム化部分空間反復を実行して、YΠX,LY の主要特異部分空間を推定する。
  • 上位k個の特異ベクトルを固有値分解により計算するため、小さな行列 F = (YᵀXQ)ᵀ(YᵀXQ) を構築する。
  • 最終的なラベル埋め込み V ∈ ℝ^(c×k) は、F の主成分に基づくベクトルQの射影によって得られる。
  • この手法はデータを (q+1) 回しか走査しないため、大規模学習において非常に効率的である。

実験結果

リサーチクエスチョン

  • RQ1ランダム化アルゴリズムは、統計的精度を損なわず、ラベル埋め込みの学習において指数的スピードアップを達成できるか?
  • RQ2マルチクラスおよびマルチラベル設定を一般化する統一的なラベル類似度の統計的解釈は存在するか?
  • RQ3計算制約が存在しない状況でも、低ランクラベル埋め込みはサンプル複雑性を低減できるか?
  • RQ4条件付きラベル確率の期待外積が、自然なラベル類似度の指標として機能できるか?
  • RQ5ランダム化線形代数技術を用いて、明示的な構築なしに大規模な予測行列を暗黙的に分解できるか?

主な発見

  • 提案されたRembrandtアルゴリズムは、Large Scale Hierarchical Text ChallengeおよびOpen Directory Projectのデータセットで最先端の性能を達成した。
  • 大規模な応答行列を明示的に計算しないため、ナイーブなラベル埋め込みアルゴリズムと比較して指数的スピードアップを達成した。
  • 最適なランク制約最小二乗推定器は、ラベルの埋め込みから構築可能であり、計算上の利点を超えた統計的根拠を提供する。
  • ラベル類似度は、条件付きラベル確率における線形従属性によって自然に定義され、誤り行列とラベル共分散に基づく先行研究を統一する。
  • ハイパーパrameterチューニングが最小限で、(p,q) = (20,1) が実験全体にわたり安定的であった。
  • ランダム化SVDの使用により、(q+1) 回のデータ走査で済むため、時間計算量が顕著に削減され、スケーラブルなラベル埋め込み計算が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。