Skip to main content
QUICK REVIEW

[论文解读] PU Learning for Matrix Completion

Cho‐Jui Hsieh, Nagarajan Natarajan|arXiv (Cornell University)|Nov 22, 2014
Sparse and Compressive Sensing Techniques参考文献 28被引用 112
一句话总结

本文提出了一种用于矩阵补全的PU学习方法,在有界核范数假设下,提出了两种方法——用于概率矩阵恢复的平移矩阵补全(shifted matrix completion)和用于阈值化二值矩阵的有偏矩阵补全(biased matrix completion)。建立了强 Frobenius 误差界 $ O(1/((1-\rho)n)) $,表明稠密矩阵的样本复杂度为 $ O(n\log n) $,并将该框架扩展至基于特征建模的归纳矩阵补全。

ABSTRACT

In this paper, we consider the matrix completion problem when the observations are one-bit measurements of some underlying matrix M, and in particular the observed samples consist only of ones and no zeros. This problem is motivated by modern applications such as recommender systems and social networks where only "likes" or "friendships" are observed. The problem of learning from only positive and unlabeled examples, called PU (positive-unlabeled) learning, has been studied in the context of binary classification. We consider the PU matrix completion problem, where an underlying real-valued matrix M is first quantized to generate one-bit observations and then a subset of positive entries is revealed. Under the assumption that M has bounded nuclear norm, we provide recovery guarantees for two different observation models: 1) M parameterizes a distribution that generates a binary matrix, 2) M is thresholded to obtain a binary matrix. For the first case, we propose a "shifted matrix completion" method that recovers M using only a subset of indices corresponding to ones, while for the second case, we propose a "biased matrix completion" method that recovers the (thresholded) binary matrix. Both methods yield strong error bounds --- if M is n by n, the Frobenius error is bounded as O(1/((1-rho)n), where 1-rho denotes the fraction of ones observed. This implies a sample complexity of O(n\log n) ones to achieve a small error, when M is dense and n is large. We extend our methods and guarantees to the inductive matrix completion problem, where rows and columns of M have associated features. We provide efficient and scalable optimization procedures for both the methods and demonstrate the effectiveness of the proposed methods for link prediction (on real-world networks consisting of over 2 million nodes and 90 million links) and semi-supervised clustering tasks.

研究动机与目标

  • 弥合矩阵补全理论与现实应用之间的差距,其中仅能获得正样本(一位)观测数据,例如在社交网络和推荐系统中。
  • 在两种不同设定下形式化并分析PU矩阵补全问题:二值观测数据的概率生成机制与实值矩阵的确定性阈值化。
  • 为这两种设定提供理论恢复保证,确保即使仅观测到正样本,也能实现低重建误差。
  • 将所提方法扩展至归纳矩阵补全,其中行与列的特征可用,从而实现在大规模网络中的可扩展且精确的预测。
  • 在包含超过200万个节点和9000万条边的真实数据集上验证方法的有效性,结果表明在链接预测与半监督聚类任务中表现优越。

提出的方法

  • 提出一种‘平移矩阵补全’方法,通过最小化观测正样本上平方损失的无偏估计器,重新表述问题以避免退化解。
  • 引入一种‘有偏矩阵补全’方法,对观测到的正样本与未观测条目施加不同的惩罚,从而在确定性阈值化设定下实现对阈值化二值矩阵的恢复。
  • 使用核范数正则化以确保矩阵恢复过程中的低秩结构与稳定性,假设 $ \|M\|_* \leq \text{const} $。
  • 设计基于坐标下降与低秩近似的可扩展优化过程,使方法可应用于大规模数据集。
  • 通过将矩阵条目标注为行与列特征的双线性函数,将两种方法扩展至归纳矩阵补全,同时保持理论保证。
  • 利用高效的基于 SVD 的近似与松弛技术(如 ShiftMC-relax),在保持性能的同时处理大规模数据。

实验结果

研究问题

  • RQ1当底层矩阵经过量化或阈值化处理时,能否仅从正样本的一位观测中恢复低秩矩阵?
  • RQ2在一位矩阵补全的背景下,PU学习的矩阵恢复可建立怎样的理论误差界?
  • RQ3当仅观测到正样本时,样本复杂度如何随矩阵规模变化?
  • RQ4所提方法能否在保留恢复保证的前提下,扩展至包含特征信息的归纳矩阵补全?
  • RQ5在真实世界的链接预测与聚类任务中,所提方法与现有启发式方法(如将缺失条目视为零)相比表现如何?

主要发现

  • 恢复一个 $ n \times n $ 矩阵的 Frobenius 误差被限制在 $ O\left(\frac{1}{(1-\rho)n}\right) $,其中 $ 1-\rho $ 为观测正样本的比例。
  • 实现小误差所需的样本复杂度为 $ O(n\log n) $,当 $ n $ 较大时,对稠密矩阵而言效率很高。
  • BiasMC 在真实网络的链接预测中优于其他方法,其在包含最多9000万条边的数据集中实现了更低的假阳性率(FPR)与假阴性率(FNR)。
  • BiasMC 效率极高——在 MySpace 数据集(200万个节点,9000万条边)上仅用516秒完成10轮坐标下降迭代,显著优于标准 SVD 计算(耗时2408秒)。
  • BiasMC-inductive 仅使用100个标记的正样本关系,即在 Mushroom 与 Segment 数据集上实现低于10%的聚类误差,显著优于 MC-inductive 与谱聚类方法。
  • 理论保证已扩展至归纳矩阵补全,表明有偏矩阵补全即使仅观测到正关系,也能恢复底层矩阵结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。