QUICK REVIEW

[论文解读] Fair and Diverse DPP-based Data Summarization

L. Elisa Celis, Vijay Keswani|arXiv (Cornell University)|Feb 12, 2018

Topic Modeling被引用 28

一句话总结

本文提出了一种快速且可证明准确的算法，用于使用具有敏感属性公平性约束的确定性点过程（DPPs）从数据集中采样多样且公平的子集。该方法引入了一种分区DPP框架，在保持高多样性的同时确保比例或均等代表性，且在自然的$β$-平衡条件下具有理论保证，并通过实证验证表明在公平性约束下多样性损失最小。

ABSTRACT

Sampling methods that choose a subset of the data proportional to its diversity in the feature space are popular for data summarization. However, recent studies have noted the occurrence of bias (under- or over-representation of a certain gender or race) in such data summarization methods. In this paper we initiate a study of the problem of outputting a diverse and fair summary of a given dataset. We work with a well-studied determinantal measure of diversity and corresponding distributions (DPPs) and present a framework that allows us to incorporate a general class of fairness constraints into such distributions. Coming up with efficient algorithms to sample from these constrained determinantal distributions, however, suffers from a complexity barrier and we present a fast sampler that is provably good when the input vectors satisfy a natural property. Our experimental results on a real-world and an image dataset show that the diversity of the samples produced by adding fairness constraints is not too far from the unconstrained case, and we also provide a theoretical explanation of it.

研究动机与目标

为解决基于DPP的数据摘要中缺乏公平性的问题，即多样化子集可能对性别或种族等敏感属性产生代表不足或过度代表的情况。
开发一种框架，将一般公平性约束（如成比例或均等代表）整合到DPP中，同时保持多样性。
设计一种针对分区DPP的高效采样算法，而分区DPP在一般情况下是难以处理的，该算法在自然的数据条件（$\beta$-平衡）下有效。
从理论和实证上分析公平性与多样性的权衡，通过约束分布与无约束分布之间的KL散度来量化‘公平性代价’。

提出的方法

将公平性形式化为对每个敏感属性组采样数量的约束，将问题建模为从分区DPP中采样。
提出一种线性时间采样算法，在$\beta$-平衡条件下近似真实分区DPP分布，该条件确保数据矩阵中无任何组过小或失衡。
采用一种基于贪婪和投影的采样策略，通过在已选向量上正交投影后选择残差范数最大的向量来保持多样性。
应用递归行列式分解技术，高效计算并维护采样过程中的DPP概率得分。
利用格拉姆矩阵的特征多项式，将给定大小子集的主子式之和与总多样性得分相关联。
证明只要数据满足$\beta$-平衡条件，该算法输出的样本即具有非零行列式（即线性无关向量）。

实验结果

研究问题

RQ1能否将基于DPP的采样方法调整为在不牺牲多样性的前提下确保敏感属性的公平代表？
RQ2从公平性约束DPP中采样的计算复杂度是多少？能否高效地近似？
RQ3当施加公平性约束时，输出子集的多样性会如何退化？这种退化能否在理论上进行界定？
RQ4在何种数据条件下，所提出的算法能保持强近似保证？
RQ5公平性代价（以约束与无约束DPP分布之间的KL散度衡量）是多少？

主要发现

所提出的算法在数据矩阵满足$\beta$-平衡条件时，运行时间为线性时间，并能从公平性约束的DPP分布中提供可证明质量良好的样本。
随机数据矩阵在高概率下满足$\beta$-平衡条件，使该方法具有广泛适用性。
公平性代价——以约束与无约束DPP分布之间的KL散度衡量——在理论上是可界定的，并且在合理的数据假设下保持较低水平。
在Adult数据集和一个精心筛选的图像数据集上的实证结果表明，即使输入数据高度偏倚，公平性约束也仅导致多样性出现极小的下降。
当敏感属性的期望比例与输入分布显著不同时，该算法仍能保持高多样性。
理论与实证结果共同表明，在基于DPP的摘要中，公平性与多样性并非本质上相互冲突。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。