[论文解读] Guarantees for Spectral Clustering with Fairness Constraints
本论文将 Chierichetti 等人的公平性概念引入谱聚类(非归一化与归一化),提出算法,并在一个变体的随机块模型上给出恢复保证,以及在真实数据上的实证证据。
Given the widespread popularity of spectral clustering (SC) for partitioning graph data, we study a version of constrained SC in which we try to incorporate the fairness notion proposed by Chierichetti et al. (2017). According to this notion, a clustering is fair if every demographic group is approximately proportionally represented in each cluster. To this end, we develop variants of both normalized and unnormalized constrained SC and show that they help find fairer clusterings on both synthetic and real data. We also provide a rigorous theoretical analysis of our algorithms on a natural variant of the stochastic block model, where $h$ groups have strong inter-group connectivity, but also exhibit a "natural" clustering structure which is fair. We prove that our algorithms can recover this fair clustering with high probability.
研究动机与目标
- 使每个簇反映原始数据中的人口群体比例。
- 提供无归一化和归一化谱聚类的带公平约束的算法。
- 给出理论保证,证明在随机块模型变体下可以恢复公平聚类。
- 在合成数据和真实数据上评估提出的公平SC方法与标准SC相比。
提出的方法
- 通过在聚类编码矩阵 H 上增加线性公平约束来扩展谱聚类。
- 将公平性表述为 F^T H = 0,并松弛为 H^T H = I_k,通过投影拉普拉斯的特征分解求解。
- 提供用于无归一化SC的带公平约束的算法2,以及用于归一化SC的带公平约束的算法3(并讨论通过零空间投影实现的实现)。
- 使用随机块模型的一个变体来建模公平的真实簇,以及分析恢复保证。
- 对获得嵌入的行应用k-means来恢复聚类。
实验结果
研究问题
- RQ1是否能在不显著牺牲聚类质量的前提下,将基于人口群体表示的公平性约束并入谱聚类?
- RQ2公平谱聚类在体现强的跨组连通性和公平结构的随机块模型中,是否能恢复一个公平的真实聚类?
- RQ3无归一化与归一化的公平谱聚类之间有哪些计算和理论权衡?
- RQ4在真实网络上,与标准SC相比,公平SC方法的表现如何?
主要发现
- 公平性约束可以通过对嵌入矩阵 H 的线性约束被引入到SC中。
- 公平的表述导致的松弛化简化为对投影拉普拉斯的特征问题,随后对嵌入的行进行k-means。
- 作者在-ground-truth聚簇公平的随机块模型变体下证明了公平聚类的恢复保证。
- 实验表明公平SC方法在聚类方面比标准SC更公平,目标值通常接近标准SC。
- 算法3(带公平性的归一化SC)在零误差需要的样本量较小以及经验鲁棒性方面,通常优于算法2(带公平性的无归一化SC)。
- 在真实网络上,公平约束往往减少平衡差距,并保持竞争力的 RatioCut/NCut 值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。