QUICK REVIEW

[論文レビュー] Distributed $k$-Clustering for Data with Heavy Noise

Shi Li, Xiangyu Guo|arXiv (Cornell University)|Oct 1, 2018

Privacy-Preserving Technologies in Data被引用数 13

ひとこと要約

本稿は、外れ値を伴う $k$-center、median、means 問題に対する分散型 $(k, z)$-クラスタリングアルゴリズムを提案する。このアルゴリズムは、$O(1)$-近似比を維持しながら、$z$-依存の通信コストを保ち、最適な $(1+\epsilon)z$ 個の外れ値を達成する。先行研究と比較して、余分な外れ値の数を $2z$ 個から $(1+\epsilon)z$ 個に削減することで、解の品質と通信効率を著しく向上させる。

ABSTRACT

In this paper, we consider the $k$-center/median/means clustering with outliers problems (or the $(k, z)$-center/median/means problems) in the distributed setting. Most previous distributed algorithms have their communication costs linearly depending on $z$, the number of outliers. Recently Guha et al.[10] overcame this dependence issue by considering bi-criteria approximation algorithms that output solutions with $2z$ outliers. For the case where $z$ is large, the extra $z$ outliers discarded by the algorithms might be too large, considering that the data gathering process might be costly. In this paper, we improve the number of outliers to the best possible $(1+\epsilon)z$, while maintaining the $O(1)$-approximation ratio and independence of communication cost on $z$. The problems we consider include the $(k, z)$-center problem, and $(k, z)$-median/means problems in Euclidean metrics. Implementation of the our algorithm for $(k, z)$-center shows that it outperforms many previous algorithms, both in terms of the communication cost and quality of the output solution.

研究の動機と目的

特に $z$ が大きい場合に顕著になる分散型 $k$-クラスタリングにおける高い通信コストを低減すること。
望ましい $z$ 個の外れ値を超える余分な外れ値の数を減らし、データ集積的環境における解の品質を向上させること。
通信コストを $z$ に依存させずに $O(1)$-近似比を達成すること。
通信コストと解の品質の両面で既存手法を上回る実用的なアルゴリズムを設計すること。

提案手法

余分な外れ値の数を $(1+\epsilon)z$ 個に制御する二基準近似フレームワークを導入し、余分な外れ値の削除を最小限に抑える。
局所データを集約し、近似比が有界なコアクラスタを計算する分散クラスタリング戦略を採用する。
通信効率の良い方法として、サンプリングに基づくクラスタ中心と外れ値の推定手法を用いる。
$(1+\epsilon)z$ 個の外れ値しか破棄しないように保証する洗練された外れ値選択メカニズムを適用する。
通信コストが $z$ に線形に依存しないようにする通信プロトコルを設計し、大規模分散システムにおけるスケーラビリティを実現する。
$(k,z)$-center 問題の実用的バージョンを実装し、実験的評価によって検証する。

実験結果

リサーチクエスチョン

RQ1分散型 $k$-クラスタリングに外れ値を伴う場合、$2z$ 個から $(1+\epsilon)z$ 個に余分な外れ値の数を削減することは可能か？また、一定の近似比を維持できるか？
RQ2$(k,z)$-center/median/means 問題に対して、通信コストが $z$ に依存しない分散アルゴリズムを設計することは可能か？
RQ3提案手法は、通信コストと解の品質の両面で、既存手法と比較してどのように優れているか？
RQ4大規模なデータに強くノイズが混入している環境でも、このアルゴリズムは効率的に実装され、スケーラブルに運用可能か？

主な発見

提案手法は、最適な $(1+\epsilon)z$ 個の外れ値を達成し、先行の $2z$-ベース手法と比較して余分な外れ値の数を顕著に削減する。
ユークリッド距離空間において、$(k,z)$-center 問題および $(k,z)$-median/means 問題の両方で、$O(1)$-近似比を維持する。
通信コストは $z$ に依存せず、外れ値が多い環境でもスケーラブルである。
実験的評価により、既存のアルゴリズムと比較して通信コストと解の品質の両面で優れた性能を示す。
$(k,z)$-center 問題向けの実装は、重いノイズが混入した分散データ上で実用的で、高い効率性と頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。