QUICK REVIEW

[论文解读] A Distributional Framework for Data Valuation

Amirata Ghorbani, Michael P. Kim|arXiv (Cornell University)|Feb 27, 2020

Explainable Artificial Intelligence (XAI)参考文献 23被引用 26

一句话总结

本文提出分布式沙普利（distributional Shapley），一种新颖的框架，将数据点的值定义为相对于底层数据分布而非固定数据集的值，从而确保在不同数据抽样中具有统计稳定性与一致性。该方法实现了更快、更可靠的数值评估，并具备正式的近似保证，在数据定价应用中表现出色。

ABSTRACT

Shapley value is a classic notion from game theory, historically used to quantify the contributions of individuals within groups, and more recently applied to assign values to data points when training machine learning models. Despite its foundational role, a key limitation of the data Shapley framework is that it only provides valuations for points within a fixed data set. It does not account for statistical aspects of the data and does not give a way to reason about points outside the data set. To address these limitations, we propose a novel framework -- distributional Shapley -- where the value of a point is defined in the context of an underlying data distribution. We prove that distributional Shapley has several desirable statistical properties; for example, the values are stable under perturbations to the data points themselves and to the underlying data distribution. We leverage these properties to develop a new algorithm for estimating values from data, which comes with formal guarantees and runs two orders of magnitude faster than state-of-the-art algorithms for computing the (non-distributional) data Shapley values. We apply distributional Shapley to diverse data sets and demonstrate its utility in a data market setting.

研究动机与目标

解决传统数据沙普利的局限性，即依赖于固定训练数据集且在不同数据抽样中缺乏统计一致性。
开发一种数据估值框架，反映数据点在数据分布中的内在价值，从而实现在数据市场中的公平且可迁移的定价。
确保在数据点及底层分布发生扰动时估值的稳定性，提升鲁棒性与可靠性。
设计一种计算高效的算法，具备正式的近似保证，显著优于当前最先进方法的计算速度。
在数据市场环境中对框架进行实证验证，证明在不同买家与卖家之间使用真实世界数据集时，估值结果具有一致性。

提出的方法

提出分布式沙普利，即从底层数据分布 𝒟 中独立同分布抽样所得数据集上数据沙普利值的期望。
将数据点 z 的值定义为 E_B∼𝒟^n [φ(z; U, B)]，其中 φ 是在随机数据集 B 上的标准数据沙普利值。
利用一个数学恒等式，表明分布式沙普利等于将 z 加入随机子集时边际性能提升的期望。
提出 𝒟-Shapley 算法，基于该恒等式构造无偏估计器，并具备正式的近似保证。
基于稳定性特性进行理论优化，将计算成本降低两个数量级，同时不损失准确性。
使用蒙特卡洛采样结合方差减少技术，高效估计多种机器学习任务下的分布式沙普利值。

实验结果

研究问题

RQ1能否通过基于底层数据分布而非固定训练数据集来实现数据估值，从而使其独立于特定训练数据集？
RQ2所提出的分布式沙普利框架在数据点及数据分布发生扰动时是否保持稳定性？
RQ3该框架能否支持在来自同一分布但数据集不同的买家之间实现一致的数据定价？
RQ4能否在保持准确性的前提下，使分布式沙普利的估计速度显著快于现有数据沙普利算法？
RQ5由于对数据集进行了边际化处理，分布式沙普利是否与差分隐私等隐私保护技术兼容？

主要发现

分布式沙普利值在个体数据点及底层数据分布发生扰动时均保持稳定，而标准数据沙普利通常不具备这一性质。
𝒟-Shapley 算法在计算非分布式数据沙普利值方面，速度比当前最先进方法快两个数量级，且具备正式的近似保证。
在数据定价实验中，卖家估算的分布式沙普利值与买家估算的数据沙普利值之间的等级相关性始终很高（例如，在不同数据集中约为 0.6–0.9），表明估值具有一致性。
当按照分布式沙普利值顺序将数据点加入买家数据集时，模型准确率提升效果与按买家估算值顺序添加相当，两者均优于随机添加。
卖家与买家对数据集总价值的估计之间的绝对百分比误差较低（例如，许多情况下低于 10%），表明分布式沙普利提供了近似无偏的定价。
该框架能够在来自同一分布的不同数据集之间实现一致的估值，使其适用于现实世界中的数据市场，其中数据在各方之间转移。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。