QUICK REVIEW

[論文レビュー] Improved Approximation and Scalability for Fair Max-Min Diversification

Raghavendra Addanki, Andrew McGregor|arXiv (Cornell University)|Jan 1, 2022

Privacy-Preserving Technologies in Data被引用数 6

ひとこと要約

本稿では、メトリック空間およびユークリッド空間における公平な Max-Min 多様化問題に対する改善された近似アルゴリズムを提示している。一般のメトリック空間では2-近似を達成し、ユークリッド空間では近似的に最適な公平性を実現する(1+ϵ)-近似を達成している。ランダム化ラウンディング、コアセット構築、ストリーミングおよび分散アルゴリズムを導入し、従来の3m−1近似を著しく上回り、大規模データセットのスケーラブルな処理を可能にしている。

ABSTRACT

Given an $n$-point metric space $(\mathcal{X},d)$ where each point belongs to one of $m=O(1)$ different categories or groups and a set of integers $k_1, \ldots, k_m$, the fair Max-Min diversification problem is to select $k_i$ points belonging to category $i\in [m]$, such that the minimum pairwise distance between selected points is maximized. The problem was introduced by Moumoulidou et al. [ICDT 2021] and is motivated by the need to down-sample large data sets in various applications so that the derived sample achieves a balance over diversity, i.e., the minimum distance between a pair of selected points, and fairness, i.e., ensuring enough points of each category are included. We prove the following results: 1. We first consider general metric spaces. We present a randomized polynomial time algorithm that returns a factor $2$-approximation to the diversity but only satisfies the fairness constraints in expectation. Building upon this result, we present a $6$-approximation that is guaranteed to satisfy the fairness constraints up to a factor $1-ε$ for any constant $ε$. We also present a linear time algorithm returning an $m+1$ approximation with exact fairness. The best previous result was a $3m-1$ approximation. 2. We then focus on Euclidean metrics. We first show that the problem can be solved exactly in one dimension. For constant dimensions, categories and any constant $ε>0$, we present a $1+ε$ approximation algorithm that runs in $O(nk) + 2^{O(k)}$ time where $k=k_1+\ldots+k_m$. We can improve the running time to $O(nk)+ poly(k)$ at the expense of only picking $(1-ε) k_i$ points from category $i\in [m]$. Finally, we present algorithms suitable to processing massive data sets including single-pass data stream algorithms and composable coresets for the distributed processing.

研究の動機と目的

複数のカテゴリを含む大規模データセットにおけるバランスの取れた多様なサンプリングのニーズに対応する。
従来の3m−1の境界を上回る、公平な Max-Min 多様化の近似因子の改善。
ストリーミングおよび分散アルゴリズムを通じて、大規模データセットのスケーラビリティを実現する。
双曲次元が有界なユークリッド空間において、近似的に最適な近似（1+ϵ）を達成する。
分散処理下でも公平性と近似保証を維持する、組み合わせ可能なコアセットの構築。

提案手法

一般のメトリック空間において、線形計画問題のランダム化ラウンディングを用いて、期待値としての公平性を満たす2-近似を達成する。
弱い条件下でも、各グループiについて(1−ϵ)kiの公平性を高確率で保証する6-近似アルゴリズムを導入する。
正確な公平性を満たす線形時間のm+1-近似アルゴリズムを提案し、従来の3m−1の結果を著しく改善する。
幾何的クラスタリングとグリッド分解に基づく、ユークリッドメトリック用の新規コアセット構築法を設計する。
コアセット上で動的計画法を用いて、定数次元のユークリッド空間で(1+ϵ)-近似を達成するアルゴリズムを開発する。
しきい値に基づく貪欲選択（τ-GMM）とコアセット再利用を用いて、組み合わせ可能なコアセットおよび単一パスのデータストリームアルゴリズムを構築する。

実験結果

リサーチクエスチョン

RQ1一般のメトリック空間における公平な Max-Min 多様化問題について、3m−1より良い近似因子を達成することは可能か？
RQ2双曲次元が有界なユークリッド空間で、近似的に正確な公平性と効率的な実行時間を持つ(1+ϵ)-近似を達成することは可能か？
RQ3単一パス処理および分散計算をサポートする、大規模データセット向けのスケーラブルなアルゴリズムを設計することは可能か？
RQ4公平な多様化問題において、近似品質と公平性の緩和の最適なトレードオフは何か？
RQ5分散処理下でも公平性と近似保証を保持する、組み合わせ可能なコアセットを構築することは可能か？

主な発見

本稿では、期待値としての公平性を満たす一般メトリック空間向けの2-近似アルゴリズムを提示しており、従来の3m−1の境界を上回っている。
条件ki = Ω(ϵ−2 log m)のもとで、各グループiについて(1−ϵ)kiの公平性を満たす6-近似が達成された。
正確な公平性を満たす線形時間のm+1-近似アルゴリズムが提案され、従来の3m−1の結果を著しく改善した。
定数次元のユークリッド空間では、O(nk) + 2O(k)時間で(1+ϵ)-近似が達成され、(1−ϵ)kiの公平性を犠牲にすることで、O(nk) + poly(k)時間の改良版が得られた。
双曲次元λのユークリッドメトリックに対して、サイズO((8/ϵ)λkmL)の(1+ϵ)-組み合わせ可能コアセットが構築され、分散処理を可能にした。
単一パスのデータストリームアルゴリズムが設計され、一般メトリック空間ではO(ϵ−1km log n)の記憶領域を、ユークリッド空間ではO((8/ϵ)λkmϵ−1 log n)の記憶領域を用い、それぞれ30(1+ϵ)-および(1+ϵ)-近似を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。