[论文解读] Clustering Via Crowdsourcing
本文提出了一种自适应、可并行化的众包聚类算法,通过利用噪声相似性辅助信息并处理错误的众包响应,显著降低了查询复杂度。通过结合随机采样、多数投票和迭代聚类增长,即使在噪声环境下,也能实现接近最优的查询复杂度和轮次复杂度——在 n 上为次线性。
In recent years, crowdsourcing, aka human aided computation has emerged as an effective platform for solving problems that are considered complex for machines alone. Using human is time-consuming and costly due to monetary compensations. Therefore, a crowd based algorithm must judiciously use any information computed through an automated process, and ask minimum number of questions to the crowd adaptively. One such problem which has received significant attention is {\em entity resolution}. Formally, we are given a graph $G=(V,E)$ with unknown edge set $E$ where $G$ is a union of $k$ (again unknown, but typically large $O(n^α)$, for $α>0$) disjoint cliques $G_i(V_i, E_i)$, $i =1, \dots, k$. The goal is to retrieve the sets $V_i$s by making minimum number of pair-wise queries $V imes V o\{\pm1\}$ to an oracle (the crowd). When the answer to each query is correct, e.g. via resampling, then this reduces to finding connected components in a graph. On the other hand, when crowd answers may be incorrect, it corresponds to clustering over minimum number of noisy inputs. Even, with perfect answers, a simple lower and upper bound of $Θ(nk)$ on query complexity can be shown. A major contribution of this paper is to reduce the query complexity to linear or even sublinear in $n$ when mild side information is provided by a machine, and even in presence of crowd errors which are not correctable via resampling. We develop new information theoretic lower bounds on the query complexity of clustering with side information and errors, and our upper bounds closely match with them. Our algorithms are naturally parallelizable, and also give near-optimal bounds on the number of adaptive rounds required to match the query complexity.
研究动机与目标
- 通过最小化成对人工查询的数量,解决众包实体解析中的高查询成本问题。
- 通过引入机器生成的相似性辅助信息,突破标准连通分量恢复中 Ω(nk) 查询复杂度的理论瓶颈。
- 设计对噪声众包响应(错误概率为 1/2−λ)具有鲁棒性的算法,无需依赖重采样进行纠正。
- 在并行执行模型中实现接近最优的轮次复杂度,这对可扩展、实时应用至关重要。
- 提供信息论下界,并与上界匹配,建立紧密的理论保证。
提出的方法
- 使用一个噪声加权相似性矩阵 W 作为辅助信息,其中当 i,j 属于同一聚类时 w_{i,j} 从 f_+ 中抽取,否则从 f_- 中抽取,且分布未知。
- 以均匀随机方式采样 √(n log n) 个顶点,并发出所有成对查询以形成子图 G'',用于初始聚类检测。
- 从 G'' 中提取最高权重子图 S,其中正回答记为 +1,负回答记为 -1;通过每个未聚类顶点进行 c log n 次多数投票来扩展 S。
- 在轮次中重复聚类增长过程,当聚类大小 ≥ c log n 时,每聚类保持 O(1) 轮复杂度,每增长阶段使用 c 轮。
- 应用递归聚类:在初始采样后,对剩余未聚类顶点递归处理,确保以高概率恢复所有聚类。
- 使用信息论分析来界定查询复杂度和轮次复杂度,其中 c = O(1/λ²) 控制错误鲁棒性。
实验结果
研究问题
- RQ1当存在辅助信息时,众包聚类中的查询复杂度是否可以低于 Θ(nk)?
- RQ2噪声众包响应(错误概率为 1/2−λ)如何影响所需最小查询数?
- RQ3在自适应、并行的众包算法中,查询数与轮次复杂度之间的最优权衡是什么?
- RQ4当 f_+ 和 f_- 未知时,算法是否仍能以次线性查询复杂度实现接近最优性能?
- RQ5在存在噪声输入和辅助信息的情况下,聚类的查询复杂度的根本极限(下界)是什么?
主要发现
- 本文确立了即使在完美回答下,查询复杂度的下界仍为 O(nk),但表明辅助信息可将其降低为 n 的次线性函数。
- 在存在辅助信息且 oracle 完美时,当 k = Ω(√n) 或 k = O(√n / Δ(f_+||f_-)) 时,算法的轮次复杂度与最优值相差 Õ(1) 因子。
- 对于错误概率为 1/2−λ 的故障 oracle,即使没有辅助信息,算法的轮次复杂度与最优值相差 Õ(√log n) 因子。
- 通过使用全部 binomial(n,2) 次查询,算法以高概率恢复真实聚类结构的最大似然估计。
- 理论分析表明,查询复杂度被信息论极限紧密界定,上下界差距至多为 O(√(n log n)/k)。
- 该方法天然具备可并行性,每个聚类增长阶段仅需 O(1) 轮,支持高效的分布式执行。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。