QUICK REVIEW

[論文レビュー] Fair Coresets and Streaming Algorithms for Fair k-Means Clustering

Melanie Schmidt, Chris Schwiegelshohn|arXiv (Cornell University)|Dec 28, 2018

Privacy-Preserving Technologies in Data参考文献 41被引用数 37

ひとこと要約

本稿では、k-平均クラスタリングにおける公平なコアセットを導入し、クラスタ内における感受性属性（例：人種、性別）のバランスを保証する。公平性に特化した組み込み可能なコアセット定義を提案することで、効率的なストリーミングおよび分散アルゴリズムを可能にし、データサイズを削減しながら(1+ε)-近似解を得る公平なk-平均クラスタリングを実現する。

ABSTRACT

We study fair clustering problems as proposed by Chierichetti et al. (NIPS 2017). Here, points have a sensitive attribute and all clusters in the solution are required to be balanced with respect to it (to counteract any form of data-inherent bias). Previous algorithms for fair clustering do not scale well. We show how to model and compute so-called coresets for fair clustering problems, which can be used to significantly reduce the input data size. We prove that the coresets are composable and show how to compute them in a streaming setting. Furthermore, we propose a variant of Lloyd's algorithm that computes fair clusterings and extend it to a fair k-means++ clustering algorithm. We implement these algorithms and provide empirical evidence that the combination of our approximation algorithms and the coreset construction yields a scalable algorithm for fair k-means clustering.

研究の動機と目的

大規模データセットに対応できない、ランダムアクセスが制限される公平クラスタリングアルゴリズムのスケーラビリティ課題に対処する。
感受性属性を伴うクラスタリングにおいて、公平性と組み込み可能性を保証する新しいコアセット定義を形式化する。
提案された公平コアセット構築法を用いて、ストリーミングおよび分散型の公平k-平均クラスタリングアルゴリズムを設計する。
Lloydのアルゴリズムおよびk-means++を、近似品質を損なわずに公平性を維持するように変更する。
実験的に、公平コアセットと近似アルゴリズムを組み合わせることで、実用的でスケーラブルな公平k-平均クラスタリングの解決策が得られることを示す。

提案手法

ℓ色クラスに一般化可能な公平性に配慮したコアセット定義を提案し、min(r_C/b_C, b_C/r_C) ≥ 1/2 によりクラスタのバランスを保証する。
提案された公平コアセットが組み込み可能であることを証明し、ストリーミングおよび分散環境への還元を可能にする。
定数次元dに対して、サイズO(ℓk log n / ε^{d-1})のコアセットを、サンプリングおよび射影技術を用いて構築する。
動きに基づくコアセット構築法に、無作為スケッチ（ラデマッハ行列）を統合し、次元削減を実現するとともに、クラスタリングコストの近似を維持する。
コアセット上でγ-近似アルゴリズムを適用して公平クラスタ中心を計算し、重み付き線形和を用いて元の空間にマッピングする。
射影コスト保持スケッチを活用し、コアセット内のクラスタリングコストが元のデータのものと(1±ε)の要因内で近似されることを保証する。

実験結果

リサーチクエスチョン

RQ1公平k-平均クラスタリングに適したコアセットを設計でき、公平性と近似保証の両方を維持できるか？
RQ2データパーティション間で組み込み可能なコアセットを構築することは可能か？これによりストリーミングおよび分散環境での展開が可能になるか？
RQ3ランダムアクセスが制限されるストリーミング環境において、効率的な公平クラスタリングは可能か？
RQ4Lloydのアルゴリズムやk-means++といった既存のk-平均アルゴリズムは、近似品質を損なわず公平性を維持できるように変更可能か？
RQ5公平クラスタリングにおいて、コアセットサイズ、公平性、近似誤差のトレードオフはどのように変化するか？

主な発見

提案された公平コアセット定義は、組み込み可能性を保証し、ℓ色クラスのクラスタリングを可能にし、分散およびストリーミング環境におけるスケーラブルな公平クラスタリングを実現する。
定数次元dに対してコアセットサイズはO(ℓk log n / ε^{d-1})であり、これは入力サイズnに依存せず、効率的にスケーリング可能である。
ストリーミングアルゴリズムは、スケッチ後、O(k/ε²)次元にまで削減することで、(1+ε)-近似解を得る。これは、空間的・時間的計算量の大幅な削減を実現する。
公平k-means++および修正版Lloydのアルゴリズムは、提案されたコアセットフレームワーク下で公平性を維持しながら、定数倍近似保証を達成する。
実験的評価により、公平コアセットと近似アルゴリズムの組み合わせが、大規模な公平k-平均クラスタリングに実用的でスケーラブルな解決策を提供することが確認された。
理論的分析により、コアセットがクラスタリングコストを(1±ε)要因内で保持しており、最終的なクラスタリング解が最適な公平解の(1+ε)-近似であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。