Skip to main content
QUICK REVIEW

[論文レビュー] Clustering with Noisy Queries

Arya Mazumdar, Barna Saha|arXiv (Cornell University)|Jun 22, 2017
Data Quality and Management参考文献 43被引用数 36
ひとこと要約

本稿は、誤りを含む答えを確率 $ p < \frac{1}{2} $ で返すノイジーオラクルを用いたクラスタリングの理論的枠組みを提示し、アダプティブおよび非アダプティブ設定の両方におけるクエリ複雑度の情報理論的下界を初めて確立する。また、クラスタ数が未知であっても、これらの下界にほぼ一致する計算的に効率的なアルゴリズムを提案し、クエリ複雑度 $ \Theta\left(\frac{n \log n}{(1-2p)^2}\right) $ を達成する。さらに、このモデルをクラウドソーシングによるエンティティレゾリューションおよびソーシャルネットワークにおける符号付きエッジ予測に応用する。

ABSTRACT

In this paper, we initiate a rigorous theoretical study of clustering with noisy queries (or a faulty oracle). Given a set of $n$ elements, our goal is to recover the true clustering by asking minimum number of pairwise queries to an oracle. Oracle can answer queries of the form : "do elements $u$ and $v$ belong to the same cluster?" -- the queries can be asked interactively (adaptive queries), or non-adaptively up-front, but its answer can be erroneous with probability $p$. In this paper, we provide the first information theoretic lower bound on the number of queries for clustering with noisy oracle in both situations. We design novel algorithms that closely match this query complexity lower bound, even when the number of clusters is unknown. Moreover, we design computationally efficient algorithms both for the adaptive and non-adaptive settings. The problem captures/generalizes multiple application scenarios. It is directly motivated by the growing body of work that use crowdsourcing for {\em entity resolution}, a fundamental and challenging data mining task aimed to identify all records in a database referring to the same entity. Here crowd represents the noisy oracle, and the number of queries directly relates to the cost of crowdsourcing. Another application comes from the problem of {\em sign edge prediction} in social network, where social interactions can be both positive and negative, and one must identify the sign of all pair-wise interactions by querying a few pairs. Furthermore, clustering with noisy oracle is intimately connected to correlation clustering, leading to improvement therein. Finally, it introduces a new direction of study in the popular {\em stochastic block model} where one has an incomplete stochastic block model matrix to recover the clusters.

研究の動機と目的

  • アダプティブおよび非アダプティブ設定の両方において、ノイジーオラクルを用いて真のクラスタを回復するのに必要なクエリ数の情報理論的下界を初めて確立すること。
  • クラスタ数が未知であっても、近似的に最適なクエリ複雑度を達成する計算的に効率的なアルゴリズムを設計すること。
  • クラウドソーシングによるエンティティレゾリューションやソーシャルネットワークにおける符号付きエッジ予測といった、現実世界の問題へのモデルの応用。
  • 隣接行列への完全なクエリアクセスを想定しない、不完全なクエリアクセスを許容するstochastic block modelの一般化。
  • 人間を含むシステムにおけるデータマイニングおよび機械学習の実用的応用と理論的クエリ複雑度のギャップを埋めること。

提案手法

  • Rényi発散度の $ \frac{1}{2} $ 階数を用いた一般化されたFanoの不等式を用いて、クラスタリング間の仮説検定を分析することで、情報理論的下界を導出する。
  • Markovの不等式を適用して、各要素が高々 $ \frac{4Q}{n} $ 回のクエリに参加する $ \frac{n}{2} $ 個の要素の部分集合を特定し、問題を有界次数の部分グラフに還元する。
  • 3.1節の重み最大の部分グラフ検出アルゴリズムを用いて、ノイジーカップワイズクエリからクラスタを回復する。
  • 文献[46]の一般化されたFanoの不等式を用いて、クエリ応答を用いた $ K \approx \frac{n}{2k} $ 個のクラスタリングの区別における誤り確率をバウンドする。
  • 発散度 $ D(p\|q) + D(q\|p) $ を用いて、正の回復確率を達成するための非アダプティブクエリ数の下界を導出する。
  • 理論的下界にほぼ一致するアダプティブおよび非アダプティブなアルゴリズムを設計し、クラスタ数 $ k $ の事前知識がなくても、クエリ複雑度 $ \Theta\left(\frac{n \log n}{(1-2p)^2}\right) $ を達成する。

実験結果

リサーチクエスチョン

  • RQ1アダプティブおよび非アダプティブ設定の両方において、高い確率で真のクラスタを回復するのに必要なノイジーカップワイズクエリの最小数は何か?
  • RQ2クエリ複雑度は、誤り確率 $ p $、要素数 $ n $、クラスタ数 $ k $ にどのように依存するか?
  • RQ3クラスタ数 $ k $ が未知であっても、近似的に最適なアルゴリズムを設計できるか?
  • RQ4ノイジーオラクルモデルは、不完全な隣接行列を考慮するstochastic block modelをどのように一般化するか?
  • RQ5$ p < \frac{1}{2} $ の恒常的ノイズが存在する場合、クラスタリングの根本的限界は何か?

主な発見

  • 本稿は、ノイジーオラクルを用いたクラスタリングにおけるクエリ複雑度の下界を $ \Omega\left(\frac{n \log n}{(1-2p)^2}\right) $ として確立し、提案されたアルゴリズムの上界と一致する。
  • 提案されたアルゴリズムは、クラスタ数 $ k $ が未知であっても、$ \Theta\left(\frac{n \log n}{(1-2p)^2}\right) $ のクエリ複雑度を達成する。
  • 非アダプティブクエリの場合、クエリ数の下界は $ \Omega\left(\frac{nk \log n}{D(p\|q) + D(q\|p)}\right) $ であり、これは上界と一致し、タイトさが示される。
  • モデルは、$ Q < \binom{n}{2} $ のクエリしか得られない状況を許容することで、stochastic block modelを一般化し、クラスタリングが回復可能となる条件を提供する。
  • 解析から、$ \sqrt{a} - \sqrt{b} < \frac{n}{2} \sqrt{\frac{k}{Q}} $ であれば、誤り確率 $ P_e > \frac{1}{n} $ であることが示され、回復の根本的限界を示している。
  • $ Q = \binom{n}{2} $ の場合、この境界は $ \sqrt{a} - \sqrt{b} < \sqrt{\frac{k}{2}} $ が非ゼロの回復確率を達成するための必要条件であることを示し、stochastic block modelにおける既知の最適閾値の $ \sqrt{2} $ 倍の範囲内に収まる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。