Skip to main content
QUICK REVIEW

[論文レビュー] PECOS: Prediction for Enormous and Correlated Output Spaces

Hsiang‐Fu Yu, Kai Zhong|arXiv (Cornell University)|Oct 12, 2020
Topic Modeling参考文献 26被引用数 28
ひとこと要約

PECOS は、巨大で相関関係のある出力空間における極端な多値ラベル順序付けのためのモジュラーな機械学習フレームワークであり、3段階アプローチ(意味的インデックス化、学習されたマッチング、最終順位付け)を採用している。54.2%の精度@1(280万ラベル)を達成するが、線形マッチャーよりも100倍の訓練コストがかかるため、パフォーマンスと効率のトレードオフを提供する。

ABSTRACT

Many large-scale applications amount to finding relevant results from an enormous output space of potential candidates. For example, finding the best matching product from a large catalog or suggesting related search phrases on a search engine. The size of the output space for these problems can range from millions to billions, and can even be infinite in some applications. Moreover, training data is often limited for the long-tail items in the output space. Fortunately, items in the output space are often correlated thereby presenting an opportunity to alleviate the data sparsity issue. In this paper, we propose the Prediction for Enormous and Correlated Output Spaces (PECOS) framework, a versatile and modular machine learning framework for solving prediction problems for very large output spaces, and apply it to the eXtreme Multilabel Ranking (XMR) problem: given an input instance, find and rank the most relevant items from an enormous but fixed and finite output space. We propose a three phase framework for PECOS: (i) in the first phase, PECOS organizes the output space using a semantic indexing scheme, (ii) in the second phase, PECOS uses the indexing to narrow down the output space by orders of magnitude using a machine learned matching scheme, and (iii) in the third phase, PECOS ranks the matched items using a final ranking scheme. The versatility and modularity of PECOS allows for easy plug-and-play of various choices for the indexing, matching, and ranking phases. We also develop very fast inference procedures which allow us to perform XMR predictions in real time; for example, inference takes less than 1 millisecond per input on the dataset with 2.8 million labels. The PECOS software is available at https://libpecos.org.

研究の動機と目的

  • 極端な多値ラベル順序付けにおけるデータスパarsityの課題に対処すること。
  • ラベル間の意味的相関を活用して、長尾アイテムの一般化を向上させること。
  • 訓練コストと予測精度の間の柔軟なトレードオフを可能にするスケーラブルでモジュラーなフレームワークを設計すること。
  • 最大280万ラベルを含むデータセットにおいてリアルタイム推論を可能にすること。
  • 構造化モデリングを通じて、有限および無限の出力空間の両方をサポートすること。

提案手法

  • PECOS は3段階パイプラインを採用する:(1) 類似ラベルをクラスタにグループ化する意味的インデックス化、(2) 関連するクラスタを特定する学習されたマッチングモジュール、(3) マッチドクラスタ内でのアイテムスコアリングを行う最終順位付けモジュール。
  • 意味的インデックス化フェーズでは、埋め込みを用いてラベルをクラスタリングし、各クラスタのトレーニングインスタンス数を増加させ、データスパarsityを軽減する。
  • マッチングフェーズでは再帰的機械学習を採用:線形マッチャーやTransformerエンコーダーに基づく深層ニューラルマッチャーのいずれかを用いる。
  • 再帰的マッチャーは、入力とラベルの埋め込みを階層的に処理することで、効率性と一般化性能を向上させる。
  • インデックス、マッチング、順位付けの各コンponentをプラグアンドプレイ可能にし、柔軟な構成を可能にする。
  • 推論は高速化に最適化されており、1入力あたり1ミリ秒未塔の予測時間を達成している(例:280万ラベルデータセットで <1ms)。

実験結果

リサーチクエスチョン

  • RQ1意味的インデックス化と階層的マッチングは、極端な多値ラベル順序付けにおけるデータスパarsityを軽減できるか?
  • RQ2大規模データセット上での再帰的線形マッチャーとニューラルマッチャーの精度と訓練コストは、どのように比較できるか?
  • RQ3PECOS は数百万ラベルを含むデータセットにおいてリアルタイム推論を達成できるか?
  • RQ4深層ニューラルマッチャーと線形マッチャーを用いる際の、モデルの精度と訓練時間のトレードオフは何か?
  • RQ5PECOS は無限または生成的出力空間を処理するために拡張可能か?

主な発見

  • Amazon-3Mデータセット(280万ラベル)において、再帰的Transformerマッチャーは54.2%の精度@1を達成し、線形マッチャーの48.6%から6%の絶対的向上を示した。
  • 再帰的Transformerマッチャーは、線形マッチャーよりも約100倍の訓練時間を要しており、パフォーマンスとコストのトレードオフを浮き彫りにした。
  • 280万ラベルのデータセットでは、1入力あたり1ミリ秒未塔の推論が達成され、リアルタイム推論の可能性を実証した。
  • Wiki-500K(501,000ラベル)では、クラスタリングによりデータスパarsityが軽減され、100件以上のトレーニングインスタンスを持つクラスタの割合が99%以上に上昇した。
  • XR-LINEARバージョンは低コストな訓練と高速な推論を実現し、高い効率性を発揮した。一方、XR-TRANSFORMERは高い計算コストを伴うが、最先端の精度を達成した。
  • PECOSのソフトウェアはオープンソースとして公開されており、https://libpecos.org で入手可能であり、コミュニティの採用と拡張を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。