[论文解读] Towards Efficient Data Valuation Based on the Shapley Value
本论文研究使用 Shapley 值进行数据估值,并开发高效近似算法以估计大型 ML 数据集的数据贡献,可应用于公平赔偿和数据市场设计。
"How much is my data worth?" is an increasingly common question posed by organizations and individuals alike. An answer to this question could allow, for instance, fairly distributing profits among multiple data contributors and determining prospective compensation when data breaches happen. In this paper, we study the problem of data valuation by utilizing the Shapley value, a popular notion of value which originated in cooperative game theory. The Shapley value defines a unique payoff scheme that satisfies many desiderata for the notion of data value. However, the Shapley value often requires exponential time to compute. To meet this challenge, we propose a repertoire of efficient algorithms for approximating the Shapley value. We also demonstrate the value of each training instance for various benchmark datasets.
研究动机与目标
- 在机器学习设置中使用 Shapley 值推动对数据贡献的公正估值。
- 解决在大规模数据集上计算 Shapley 值的计算挑战。
- 在不同假设下开发具有可证明保证的可扩展近似算法。
- 探索利用稳定性、光滑性和增量训练的面向 ML 任务的实用估算方法。
- 在基准数据集上提供实证验证以证明可行性和可扩展性。
提出的方法
- 将数据估值建模为一个合作博弈,其中数据点为参与者,效用由数据集驱动的模型性能决定。
- 开发具有概率保证的基线置换抽样方法用于 Shapley 值估计。
- 引入基于分组测试的 Shapley 值估算算法以减少效用评估次数。
- 应用压缩感知思想(随机伯努利测量)以在数据值潜在稀疏的情况下进行 Shapley 值恢复。
- 利用学习算法的稳定性来证明将值均匀分配作为近似的合理性。
- 结合影响函数启发式方法以加速对 ML 模型的 Shapley 值估计。
实验结果
研究问题
- RQ1在大规模 ML 数据集中,Shapley 值是否可以在可证明保证下高效近似?
- RQ2不同假设(有界效用、单调/稀疏值、稳定性、光滑损失)如何影响 Shapley 值估计的效率和准确性?
- RQ3哪些实用估算方法(分组测试、压缩感知、影响函数)在常见 ML 任务中表现良好?
- RQ4基于 Shapley 的数据估值在实践中如何与隐私和对抗鲁棒性相关?
主要发现
- 一个 O(N(log N)^2) 次模型评估的算法能够在有界效用假设下,对 Shapley 值进行具有可证明误差保证的近似。
- 如果效用是单调且 Shapley 值稀疏,则在增量维护下,模型训练次数可降至 O(log log N)。
- 基于分组测试的 Shapley 值估计相比基线置换抽样显著减少了效用评估次数。
- 在稀疏性假设下,压缩置换抽样可以用 O(N log N log log N) 次评估恢复 Shapley 值。
- 基于影响函数的启发式方法可以加速 Shapley 值估计,特别是在利用最大子集近似时。
- 稳定的学习算法产生近似均匀的数据值,支持将值均匀分配作为实际近似。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。