QUICK REVIEW

[论文解读] Preference Completion: Large-scale Collaborative Ranking from Pairwise Comparisons

Dohyung Park, Joe Neeman|arXiv (Cornell University)|Jul 16, 2015

Recommender Systems and Techniques参考文献 36被引用 32

一句话总结

本文提出 Preference Completion，一种基于成对比较的大规模协同排序方法。该方法提出一种凸优化方法，使用每用户 O(r log²d) 次比较，具备强泛化保证；并提出一种可扩展的非凸算法 AltSVM，通过在低秩矩阵因子上交替求解 SVM 问题，实现最先进的性能，并在真实数据集上实现并行化下的线性加速。

ABSTRACT

In this paper we consider the collaborative ranking setting: a pool of users each provides a small number of pairwise preferences between $d$ possible items; from these we need to predict preferences of the users for items they have not yet seen. We do so by fitting a rank $r$ score matrix to the pairwise data, and provide two main contributions: (a) we show that an algorithm based on convex optimization provides good generalization guarantees once each user provides as few as $O(r\log^2 d)$ pairwise comparisons -- essentially matching the sample complexity required in the related matrix completion setting (which uses actual numerical as opposed to pairwise information), and (b) we develop a large-scale non-convex implementation, which we call AltSVM, that trains a factored form of the matrix via alternating minimization (which we show reduces to alternating SVM problems), and scales and parallelizes very well to large problem settings. It also outperforms common baselines on many moderately large popular collaborative filtering datasets in both NDCG and in other measures of ranking performance.

研究动机与目标

解决用户仅提供少量物品之间成对偏好时的协同排序挑战。
通过建模用户偏好为捕捉用户间共享结构的低秩评分矩阵，实现个性化排序。
为经验风险最小化问题的凸松弛提供泛化误差的理论保证。
设计一种可扩展、可并行化的非凸算法（AltSVM），在大规模数据集上实现比现有基线更优的速度与排序精度。

提出的方法

将协同排序问题建模为低秩矩阵补全问题，其中评分矩阵 X 由成对比较推断得出：若用户 i 更偏好物品 j 而非 k，则 X_ij > X_ik。
采用经验风险最小化问题的凸松弛，对成对差异使用合页损失，以确保泛化性能与理论保证。
提出 AltSVM，一种非凸交替最小化算法，通过将评分矩阵分解并交替求解标准 SVM 问题来更新一个因子。
实现一种无锁并行化的随机对偶坐标下降法，以高效扩展 AltSVM 至多核环境。
将低秩矩阵参数化为因子形式（X = UV^T），并通过交替优化最小化成对比较的合页损失。
通过子采样成对比较（例如，数值差距最大的比较）来降低计算成本，同时保持性能。

实验结果

研究问题

RQ1基于成对比较的协同排序的凸优化框架能否实现与数值评分矩阵补全相当的样本复杂度的泛化误差界？
RQ2如何设计一种非凸、可扩展的算法，以高效处理大规模协同排序问题，同时保持高预测精度？
RQ3在因子化低秩矩阵上进行交替最小化，重新表述为交替 SVM 问题，是否能带来比现有基线更优的收敛性与并行化性能？
RQ4所提方法在 NDCG 与 Precision@K 等排序指标上，相较于基于数值评分的算法（如 CofiRank、LCR）和基于二值评分的方法（如 RobiRank），性能提升程度如何？
RQ5随着核心数增加，该算法的可扩展性如何？在实际中是否实现线性加速？

主要发现

凸松弛方法实现了在对数因子范围内最优的泛化误差界，仅需每用户 O(r log²d) 次成对比较，与使用数值数据的矩阵补全样本复杂度一致。
在 MovieLens1m、MovieLens10m 和 Netflix 数据集上，AltSVM 在 NDCG@10 与 Precision@K 上均优于 CofiRank、LCR 与 RobiRank，尤其在观测比较数增加时优势更明显。
在每用户 N=100 次比较下，AltSVM 在 MovieLens1m 上实现 NDCG@10 为 0.7902，优于全局排序基线（0.7482）与 CofiRank（0.7151）。
AltSVM-sub（每用户仅使用 N 次比较，与数值基线相同）仍优于 CofiRank 与 LCR 的 NDCG 表现，证明成对数据的高效性。
在二值化 MovieLens1m 数据集上，AltSVM 在 16 核下实现 8.7 倍加速，训练时间从 1 核的 963.1 秒降至 111.0 秒，表明其具有强大的并行可扩展性。
消融实验表明，AltSVM 中的合页损失比逻辑损失性能更优，表现为 NDCG 与 Precision@K 指标持续更高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。