[论文解读] Proportionally Fair Clustering
引入质心聚类的成比例公平性,分析存在性,提供计算与审计成比例解的算法,并研究与 k-median/k-means 目标的权衡。
We extend the fair machine learning literature by considering the problem of proportional centroid clustering in a metric context. For clustering $n$ points with $k$ centers, we define fairness as proportionality to mean that any $n/k$ points are entitled to form their own cluster if there is another center that is closer in distance for all $n/k$ points. We seek clustering solutions to which there are no such justified complaints from any subsets of agents, without assuming any a priori notion of protected subsets. We present and analyze algorithms to efficiently compute, optimize, and audit proportional solutions. We conclude with an empirical examination of the tradeoff between proportional solutions and the $k$-means objective.
研究动机与目标
- 在无监督设置中通过将数据点视为对中心有权利的代理来推动公平聚类。
- 将成比例性定义为一种公平性保证:只要群体足够大就可以获得更靠近的中心(若有利)。
- 开发高效计算、近似与审计成比例聚类解的算法。
- 探索成比例公平性与传统聚类目标(如 k-means 和 k-median)之间的权衡。
提出的方法
- 定义阻塞联盟与成比例解以在不假设受保护群体的前提下强制执行公平性。
- 提出算法1(贪婪捕捉)在中心周围扩展球并在捕获到足够点时开启中心,从而实现一个 (1+√2)-成比例解。
- 引入算法2(局部捕捉)通过交换中心来搜索更多的成比例聚类以降低成比例性违规。
- 将成比例性作为线性规划中的约束进行表述,以在确保成比例性的同时优化 k-median,从而实现常数因子近似。
- 给出一个舍入方法(对 [8] 的修改)以在成比例约束下获得具有可证明保证的整数解。
- 证明成比例性在采样下得以保持,从而实现近线性时间的审计和检查。
实验结果
研究问题
- RQ1在所有数据集上,存在精确的成比例质心聚类解吗?
- RQ2最坏情况下能达到的成比例近似度最佳是多少?
- RQ3在成比例约束下如何优化 k-median,及其得到的近似程度是多少?
- RQ4是否可以在不进行完整成对距离计算的情况下高效地审计或检查成比例解?
- RQ5局部搜索方法是否在实际中提升超越贪婪方法的成比例性?
主要发现
- 成比例解并非普遍存在;给出一个 2-proportional 的下界。
- 算法1在最坏情况下实现了一个 (1+√2) 的成比例聚类,接近存在界 2。
- 带成比例约束的线性规划可对最佳成比例解的 k-median 目标给出一个 O(1) 近似。
- 在假设成比例聚类具有目标 c 的前提下,可以获得对 k-median 目标的常数因子近似(8c)。
- 在随机抽样大小为 Õ(k^3) 时,成比例性近似保持,从而实现近线性时间的检查与审计。
- 局部捕捉启发式(算法2)在实践中发现了近似成比例解。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。