QUICK REVIEW

[論文レビュー] Preference Completion: Large-scale Collaborative Ranking from Pairwise Comparisons

Dohyung Park, Joe Neeman|arXiv (Cornell University)|Jul 16, 2015

Recommender Systems and Techniques参考文献 36被引用数 32

ひとこと要約

本稿では、ペアワイズ比較に基づく大規模な協調順序付けのための Preference Completion を提案する。各ユーザーあたり O(r log²d) の比較で、強い一般化保証を持つ凸最適化手法を導入し、スケーラブルな非凸アルゴリズム AltSVM を開発。AltSVM は低ランク行列要因分解上でSVM問題を交互に解き、実世界のデータセットにおいて最先端の性能と並列化による線形スループット向上を達成した。

ABSTRACT

In this paper we consider the collaborative ranking setting: a pool of users each provides a small number of pairwise preferences between $d$ possible items; from these we need to predict preferences of the users for items they have not yet seen. We do so by fitting a rank $r$ score matrix to the pairwise data, and provide two main contributions: (a) we show that an algorithm based on convex optimization provides good generalization guarantees once each user provides as few as $O(r\log^2 d)$ pairwise comparisons -- essentially matching the sample complexity required in the related matrix completion setting (which uses actual numerical as opposed to pairwise information), and (b) we develop a large-scale non-convex implementation, which we call AltSVM, that trains a factored form of the matrix via alternating minimization (which we show reduces to alternating SVM problems), and scales and parallelizes very well to large problem settings. It also outperforms common baselines on many moderately large popular collaborative filtering datasets in both NDCG and in other measures of ranking performance.

研究の動機と目的

ユーザーがアイテム間のペアワイズ好ましさをわずかに提供する状況における協調順序付けの課題に対処すること。
ユーザーの好みを共有構造を捉える低ランクスコア行列でモデル化することで、パーソナライズド順序付けを可能にすること。
経験的リスク最小化問題の凸緩和に対する一般化誤差の理論的保証を提供すること。
大規模データセット上で、速度と順序付け精度の両面で既存のベースラインを上回る、スケーラブルで並列化可能な非凸アルゴリズム（AltSVM）を開発すること。

提案手法

スコア行列 X がペアワイズ比較から推定される低ランク行列補完問題として協調順序付け問題を定式化する。X_ij > X_ik であればユーザー i がアイテム j を k より好むと定義する。
経験的リスク最小化問題の凸緩和を用い、ペアワイズ差分にヒンジ損失を適用することで一般化と理論的保証を確保する。
スコア行列を因子分解し、1つの因子を順次更新する非凸の交互最適化アルゴリズムである AltSVM を提案する。各ステップで標準的なSVM問題を解く。
ロックフリー並列化を備えた確率的双対座標降下法を実装し、AltSVM を複数コアに効率的にスケーリングする。
低ランク行列を因数分解形（X = UV^T）でパrameterize し、交互最適化によりペアワイズ比較のヒンジ損失を最小化する。
計算コストを削減しつつ性能を維持するため、特に数値的差が大きい比較のサブサンプリングを適用する。

実験結果

リサーチクエスチョン

RQ1ペアワイズ比較からの協調順序付けのための凸最適化フレームワークは、数値的評価を伴う行列補完と同等のサンプル複雑度を達成する一般化誤差バウンドを実現できるか？
RQ2大規模な協調順序付け問題を扱うにあたり、高い予測精度を維持しつつスケーラブルな非凸アルゴリズムをどのように設計できるか？
RQ3因数分解された低ランク行列上で交互に最適化を行う際、SVM問題に再定式化することで、既存のベースラインと比較して収束性と並列化性が向上するか？
RQ4NDCG や Precision@K といった順序付け指標において、本手法は数値的評価ベースのアルゴリズム（例：CofiRank, LCR）および二値的評価ベースの手法（例：RobiRank）をどの程度上回るか？
RQ5コア数の増加に伴いアルゴリズムはどの程度スケーリングし、実際のところ線形スループット向上を達成するか？

主な発見

凸緩和は対数要因を除き鋭い一般化誤差バウンドを達成し、各ユーザーあたり O(r log²d) のペアワイズ比較で十分であり、数値的データを伴う行列補完と同等のサンプル複雑度を満たす。
MovieLens1m, MovieLens10m, Netflix データセットにおいて、AltSVM は CofiRank, LCR, RobiRank を NDCG@10 および Precision@K で上回り、観測比較数が増えるほど顕著に優位性を示す。
ユーザーあたり N=100 の比較がある状況で、AltSVM は MovieLens1m で NDCG@10 0.7902 を達成し、グローバル順序付けベースライン（0.7482）と CofiRank（0.7151）を上回った。
AltSVM-sub はユーザーあたり N 個の比較（数値ベースラインと同等）のみを用いるが、依然として CofiRank や LCR を上回る NDCG を達成し、ペアワイズデータの効率性を示した。
バイナリ化された MovieLens1m データセットにおいて、AltSVM は16コアで8.7倍の高速化を達成し、トレーニング時間を1コアの963.1秒から111.0秒に短縮した。並列スケーラビリティが顕著に高いことが示された。
アブレーション実験では、ロジスティック損失に比べてヒンジ損失が優れた性能を発揮し、NDCG や Precision@K スコアが一貫して高くなった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。