QUICK REVIEW

[논문 리뷰] Clustering with Noisy Queries

Arya Mazumdar, Barna Saha|arXiv (Cornell University)|2017. 06. 22.

Data Quality and Management참고 문헌 43인용 수 36

한 줄 요약

이 논문은 오라클이 확률 $ p < \frac{1}{2} $ 로 잘못된 답변을 반환하는 노이즈 있는 오라클을 사용한 클러스터링을 위한 이론적 프레임워크를 제안하며, 적응형 및 비적응형 설정 모두에서 쿼리 복잡도에 대한 정보이론적 하한을 처음으로 제시한다. 이는 수치적으로 효율적인 알고리즘을 제안하며, 클러스터 수가 알려져 있지 않은 경우에도 이러한 하한에 거의 도달하는 성능을 보이며, 쿼리 복잡도는 $ \Theta\left(\frac{n \log n}{(1-2p)^2}\right) $ 이다. 또한 이 모델을 커뮤니티 기반 엔티티 해소 및 서명된 간선 예측에 적용한다.

ABSTRACT

In this paper, we initiate a rigorous theoretical study of clustering with noisy queries (or a faulty oracle). Given a set of $n$ elements, our goal is to recover the true clustering by asking minimum number of pairwise queries to an oracle. Oracle can answer queries of the form : "do elements $u$ and $v$ belong to the same cluster?" -- the queries can be asked interactively (adaptive queries), or non-adaptively up-front, but its answer can be erroneous with probability $p$. In this paper, we provide the first information theoretic lower bound on the number of queries for clustering with noisy oracle in both situations. We design novel algorithms that closely match this query complexity lower bound, even when the number of clusters is unknown. Moreover, we design computationally efficient algorithms both for the adaptive and non-adaptive settings. The problem captures/generalizes multiple application scenarios. It is directly motivated by the growing body of work that use crowdsourcing for {\em entity resolution}, a fundamental and challenging data mining task aimed to identify all records in a database referring to the same entity. Here crowd represents the noisy oracle, and the number of queries directly relates to the cost of crowdsourcing. Another application comes from the problem of {\em sign edge prediction} in social network, where social interactions can be both positive and negative, and one must identify the sign of all pair-wise interactions by querying a few pairs. Furthermore, clustering with noisy oracle is intimately connected to correlation clustering, leading to improvement therein. Finally, it introduces a new direction of study in the popular {\em stochastic block model} where one has an incomplete stochastic block model matrix to recover the clusters.

연구 동기 및 목표

적응형 및 비적응형 설정 모두에서 노이즈 있는 오라클을 사용하여 진정한 클러스터를 복구하기 위해 필요한 쿼리 수에 대한 정보이론적 하한을 처음으로 설정하기 위해.
클러스터 수가 알려져 있지 않은 경우에도 거의 최적의 쿼리 복잡도를 달성하는 계산적으로 효율적인 알고리즘을 설계하기 위해.
실세계 문제인 커뮤니티 기반 엔티티 해소 및 사회망에서의 서명된 간선 예측에 이 모델을 적용하기 위해.
오직 $ Q < \binom{n}{2} $ 개의 요소만 관측 가능한 인접행렬에 대한 액세스가 제한된 상황에서 스 tochastic block model을 일반화하기 위해.
이론적 쿼리 복잡도와 인간이 참여하는 시스템을 포함한 데이터 마이닝 및 머신러닝 분야의 실용적 응용 간 격차를 메우기 위해.

제안 방법

Rényi 분산의 순서 $ \frac{1}{2} $ 를 사용한 일반화된 Fano의 부등식을 이용해 가설 검정을 통해 클러스터링 간의 정보이론적 하한을 유도한다.
Markov 부등식을 적용하여 각 요소가 최대 $ \frac{4Q}{n} $ 번의 쿼리에 참여하는 $ \frac{n}{2} $ 개의 요소 집합을 식별함으로써 문제를 유한 차수의 부분그래프로 축소한다.
3.1 절의 무게가 가장 큰 부분그래프 탐지 알고리즘을 사용하여 노이즈 있는 쌍별 쿼리로부터 클러스터를 복구한다.
문헌 [46]에서 제안한 일반화된 Fano의 부등식을 활용하여, 쿼리 응답을 통해 $ K \approx \frac{n}{2k} $ 개의 클러스터를 구별할 때의 오차 확률을 제한한다.
분산 $ D(p\|q) + D(q\|p) $ 를 활용하여, 양의 복구 확률을 확보하기 위해 필요한 비적응형 쿼리 수의 하한을 유도한다.
이론적 하한에 거의 도달하는 적응형 및 비적응형 알고리즘을 설계하며, 클러스터 수 $ k $ 를 사전에 알지 못하더라도 쿼리 복잡도는 $ \Theta\left(\frac{n \log n}{(1-2p)^2}\right) $ 이다.

실험 결과

연구 질문

RQ1적응형 및 비적응형 설정 모두에서 높은 확률로 진정한 클러스터를 복구하기 위해 필요한 노이즈 있는 쌍별 쿼리의 최소 수는 얼마인가?
RQ2쿼리 복잡도는 오차 확률 $ p $, 요소 수 $ n $, 클러스터 수 $ k $ 와 어떻게 스케일링되는가?
RQ3클러스터 수 $ k $ 가 알려져 있지 않은 경우에도 거의 최적의 알고리즘을 설계할 수 있는가?
RQ4노이즈 있는 오라클 모델은 완전하지 않은 인접행렬을 고려할 때 스 tochastic block model을 어떻게 일반화하는가?
RQ5지속적인 노이즈가 존재하는 경우(즉, $ p < \frac{1}{2} $) 클러스터링의 기본 한계는 무엇인가?

주요 결과

논문은 노이즈 있는 오라클을 사용한 클러스터링에 대해 $ \Omega\left(\frac{n \log n}{(1-2p)^2}\right) $ 의 쿼리 복잡도 하한을 확립하며, 이는 제안된 알고리즘의 상한과 일치한다.
제안된 알고리즘은 클러스터 수 $ k $ 가 알려져 있지 않은 경우에도 $ \Theta\left(\frac{n \log n}{(1-2p)^2}\right) $ 의 쿼리 복잡도를 달성한다.
비적응형 쿼리의 경우, 쿼리 수에 대한 하한은 $ \Omega\left(\frac{nk \log n}{D(p\|q) + D(q\|p)}\right) $ 이며, 이는 상한과 일치하여 타당성이 입증된다.
오직 $ Q < \binom{n}{2} $ 개의 쿼리만 허용되는 상황에서 스 tochastic block model을 일반화하며, 클러스터링이 여전히 복구 가능한 조건을 제공한다.
분석 결과, $ \sqrt{a} - \sqrt{b} < \frac{n}{2} \sqrt{\frac{k}{Q}} $ 이면 오차 확률 $ P_e > \frac{1}{n} $ 가 되며, 이는 복구의 기본 한계를 시사한다.
만약 $ Q = \binom{n}{2} $ 이면, 하한은 $ \sqrt{a} - \sqrt{b} < \sqrt{\frac{k}{2}} $ 가 되어야 하며, 이는 스 tochastic block model에서 알려진 최적 임계값의 약 $ \sqrt{2} $ 배 이내이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.