Skip to main content
QUICK REVIEW

[論文レビュー] Parameterized Approximation For Robust Clustering in Discrete Geometric Spaces

Fateme Abbasi, Sandip Banerjee|arXiv (Cornell University)|May 12, 2023
Facility Location and Emergency Management被引用数 1
ひとこと要約

本稿では、離散的幾何的空間におけるロバスト (k, z)-クラスタリングのパrameterized近似アルゴリズムを提示し、高次元ユークリッド空間では3z(1 − η₀)-要因のFPT近似を達成し、対数未満次元では効率的なパrameterized近似スキーム(EPAS)を提供する。また、対数次元ではEPASが存在しないことを示すタイトな近似不能性の境界を確立し、中心の列挙と球体分解を用いたコアセットベースのフレームワークを提供することで、(1 + ε)-近似を効率的に実現する。

ABSTRACT

We consider the well-studied Robust (k,z)-Clustering problem, which generalizes the classic k-Median, k-Means, and k-Center problems and arises in the domains of robust optimization [Anthony, Goyal, Gupta, Nagarajan, Math. Oper. Res. 2010] and in algorithmic fairness [Abbasi, Bhaskara, Venkatasubramanian, 2021 & Ghadiri, Samadi, Vempala, 2022]. Given a constant z ≥ 1, the input to Robust (k,z)-Clustering is a set P of n points in a metric space (M,δ), a weight function w: P → ℝ_{≥ 0} and a positive integer k. Further, each point belongs to one (or more) of the m many different groups S_1,S_2,…,S_m ⊆ P. Our goal is to find a set X of k centers such that max_{i ∈ [m]} ∑_{p ∈ S_i} w(p) δ(p,X)^z is minimized. Complementing recent work on this problem, we give a comprehensive understanding of the parameterized approximability of the problem in geometric spaces where the parameter is the number k of centers. We prove the following results: [(i)] 1) For a universal constant η₀ > 0.0006, we devise a 3^z(1-η₀)-factor FPT approximation algorithm for Robust (k,z)-Clustering in discrete high-dimensional Euclidean spaces where the set of potential centers is finite. This shows that the lower bound of 3^z for general metrics [Goyal, Jaiswal, Inf. Proc. Letters, 2023] no longer holds when the metric has geometric structure. 2) We show that Robust (k,z)-Clustering in discrete Euclidean spaces is (√{3/2}- o(1))-hard to approximate for FPT algorithms, even if we consider the special case k-Center in logarithmic dimensions. This rules out a (1+ε)-approximation algorithm running in time f(k,ε)poly(m,n) (also called efficient parameterized approximation scheme or EPAS), giving a striking contrast with the recent EPAS for the continuous setting where centers can be placed anywhere in the space [Abbasi et al., FOCS'23]. 3) However, we obtain an EPAS for Robust (k,z)-Clustering in discrete Euclidean spaces when the dimension is sublogarithmic (for the discrete problem, earlier work [Abbasi et al., FOCS'23] provides an EPAS only in dimension o(log log n)). Our EPAS works also for metrics of sub-logarithmic doubling dimension.

研究の動機と目的

  • パrameter k をパラメータとする離散的幾何的空間におけるロバスト (k, z)-クラスタリングのパrameterized近似可能性を理解すること。
  • 一般のメトリクスにおける既知の下界と幾何的設定における改善された近似の間のギャップを埋めること。
  • 対数次元におけるFPTアルゴリズムのためのタイトな近似不能性結果を確立すること。
  • 対数未満次元におけるロバスト (k, z)-クラスタリングの効率的なパrameterized近似スキーム(EPAS)を開発すること。
  • 中心の列挙と幾何的球体分解を用いて、(1 + ε)-近似を可能にするコアセットベースのフレームワークを提供すること。

提案手法

  • 高次元ユークリッド空間において、中心の列挙と幾何的球体分解を用いて、(3z(1 − η₀))-要因のFPT近似アルゴリズムを設計する。
  • 入力を小さく保ちつつ近似品質を維持するため、サイズ (2z/ε)^O(d) · k^z · log n のコアセット構築を適用する。
  • (1 + ε/10z)-丸められた半径の全列挙とεネットベースの施設サンプリングを用いて、(1 + ε)-近似アルゴリズムを実装する。
  • ボール分解補題を用いて、各クラスタごとの候補中心の数を倍加次元 d を用いて上限付ける。
  • 倍加次元の性質を活用して、ボール内の密集および分離された集合に対して (r/ε)^O(d) の上界を保証する。
  • コアセットの保証とFPT列挙を組み合わせることで、時間 (2z/ε)^O(d) · k^z · log k)^O(k) · poly(n, m) で (1 + ε)-近似を達成する。

実験結果

リサーチクエスチョン

  • RQ1一般のメトリクスにおけるロバスト (k, z)-クラスタリングの3z下界は、構造を持つ幾何的空間では破れるか?
  • RQ2離散的ユークリッド空間における対数未満次元のロバスト (k, z)-クラスタリングに対して、効率的なパrameterized近似スキーム(EPAS)は存在するか?
  • RQ3パrameter k をパラメータとする幾何的空間におけるロバスト (k, z)-クラスタリングの真のパrameterized近似可能性は何か?
  • RQ4コアセット構築は、幾何的設定において効率的な (1 + ε)-近似アルゴリズムを設計するために利用可能か?
  • RQ5離散的ロバスト (k, z)-クラスタリングにおいて、対数次元ではEPASに根本的な障壁があるか?

主な発見

  • 本稿では、離散的高次元ユークリッド空間におけるロバスト (k, z)-クラスタリングに対して、3z(1 − η₀)-要因のFPT近似アルゴリズムを達成し、一般のメトリクスで知られている3z下界を打ち破った。
  • 本稿では、標準の複雑性仮定の下で、対数次元におけるロバスト (k, z)-クラスタリングに対してEPASが存在しないことを証明した。特に、k-センターの特殊ケースに対しても同様である。
  • 対数未満次元に対してEPASを構築し、以前の研究が o(log log n) 次元を必要としていたのを改善した。
  • コアセットサイズは (2z/ε)^O(d) · k^z · log n で上限が保証され、元の問題の (1 + ε)-近似を維持する。
  • アルゴリズムは時間 (2z/ε)^O(d) · k^z · log k)^O(k) · poly(n, m) で (1 + ε)-近似を達成し、望ましいEPASの効率性と一致する。
  • ボール分解補題により、密集および分離された集合に対して (r/ε)^O(d) の境界が保証され、倍加メトリクスにおける効率的な列挙を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。