Skip to main content
QUICK REVIEW

[论文解读] Clustering with Noisy Queries

Arya Mazumdar, Barna Saha|arXiv (Cornell University)|Jun 22, 2017
Data Quality and Management参考文献 43被引用 36
一句话总结

本文提出了一种理论框架,用于在噪声查询(以概率 $ p < \frac{1}{2} $ 返回错误答案)下进行聚类,首次为自适应与非自适应设置下的查询复杂度提供了信息论下界。该文提出了新颖且计算高效的算法,几乎达到这些下界,即使在聚类数量未知的情况下,其查询复杂度为 $ \Theta\left(\frac{n \log n}{(1-2p)^2}\right) $,并将该模型应用于众包实体解析与社交网络中的有符号边预测问题。

ABSTRACT

In this paper, we initiate a rigorous theoretical study of clustering with noisy queries (or a faulty oracle). Given a set of $n$ elements, our goal is to recover the true clustering by asking minimum number of pairwise queries to an oracle. Oracle can answer queries of the form : "do elements $u$ and $v$ belong to the same cluster?" -- the queries can be asked interactively (adaptive queries), or non-adaptively up-front, but its answer can be erroneous with probability $p$. In this paper, we provide the first information theoretic lower bound on the number of queries for clustering with noisy oracle in both situations. We design novel algorithms that closely match this query complexity lower bound, even when the number of clusters is unknown. Moreover, we design computationally efficient algorithms both for the adaptive and non-adaptive settings. The problem captures/generalizes multiple application scenarios. It is directly motivated by the growing body of work that use crowdsourcing for {\em entity resolution}, a fundamental and challenging data mining task aimed to identify all records in a database referring to the same entity. Here crowd represents the noisy oracle, and the number of queries directly relates to the cost of crowdsourcing. Another application comes from the problem of {\em sign edge prediction} in social network, where social interactions can be both positive and negative, and one must identify the sign of all pair-wise interactions by querying a few pairs. Furthermore, clustering with noisy oracle is intimately connected to correlation clustering, leading to improvement therein. Finally, it introduces a new direction of study in the popular {\em stochastic block model} where one has an incomplete stochastic block model matrix to recover the clusters.

研究动机与目标

  • 为在自适应与非自适应设置下,利用噪声查询恢复真实聚类所需的最少查询次数,建立首个信息论下界。
  • 设计计算高效的算法,实现接近最优的查询复杂度,即使在聚类数量未知的情况下亦成立。
  • 将该模型应用于真实世界问题,如众包实体解析与社交网络中的有符号边预测。
  • 通过仅观测到 $ Q < \binom{n}{2} $ 个邻接矩阵条目,推广随机块模型。
  • 弥合理论查询复杂度与涉及人机协同系统在数据挖掘与机器学习中实际应用之间的差距。

提出的方法

  • 使用 Rényi 散度阶数为 $ \frac{1}{2} $ 的广义 Fano 不等式,推导信息论下界,分析聚类之间的假设检验。
  • 应用马尔可夫不等式,识别出每个元素参与的查询数不超过 $ \frac{4Q}{n} $ 的 $ \frac{n}{2} $ 个元素子集,将问题简化为有界度子图。
  • 利用第 3.1 节中的最重权子图检测算法,从噪声成对查询中恢复聚类。
  • 采用 [46] 中的广义 Fano 不等式,通过查询响应限制在 $ K \approx \frac{n}{2k} $ 个聚类之间的错误概率。
  • 利用散度 $ D(p\|q) + D(q\|p) $ 推导出实现正恢复概率所需的非自适应查询数的下界。
  • 设计出自适应与非自适应算法,其查询复杂度与理论下界一致,为 $ \Theta\left(\frac{n \log n}{(1-2p)^2}\right) $,即使在事先未知 $ k $ 的情况下亦成立。

实验结果

研究问题

  • RQ1在自适应与非自适应设置下,以高概率恢复真实聚类所需的最少噪声成对查询数是多少?
  • RQ2查询复杂度如何随错误概率 $ p $、元素数量 $ n $ 以及聚类数量 $ k $ 变化?
  • RQ3能否设计出即使在聚类数量 $ k $ 未知时也接近最优的算法?
  • RQ4该噪声查询模型如何与随机块模型相关联并加以推广?
  • RQ5当查询受到持久噪声影响且 $ p < \frac{1}{2} $ 时,聚类的基本极限是什么?

主要发现

  • 本文建立了在噪声查询下聚类的查询复杂度下界为 $ \Omega\left(\frac{n \log n}{(1-2p)^2}\right) $,与所提算法的上界一致。
  • 所提算法在聚类数量 $ k $ 未知的情况下,仍能达到 $ \Theta\left(\frac{n \log n}{(1-2p)^2}\right) $ 的查询复杂度。
  • 对于非自适应查询,查询数的下界为 $ \Omega\left(\frac{nk \log n}{D(p\|q) + D(q\|p)}\right) $,与上界一致,表明该界是紧的。
  • 该模型通过仅允许 $ Q < \binom{n}{2} $ 次查询,推广了随机块模型,并给出了聚类仍可恢复的条件。
  • 分析表明,若 $ \sqrt{a} - \sqrt{b} < \frac{n}{2} \sqrt{\frac{k}{Q}} $,则错误概率 $ P_e > \frac{1}{n} $,表明存在一个根本性的恢复限制。
  • 当 $ Q = \binom{n}{2} $ 时,该界表明 $ \sqrt{a} - \sqrt{b} < \sqrt{\frac{k}{2}} $ 是实现非零恢复概率的必要条件,该条件与随机块模型中已知最优阈值相差仅 $ \sqrt{2} $ 倍。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。