[论文解读] Collaborative Machine Learning with Incentive-Aware Model Rewards
本论文提出一种面向激励的模型奖励机制,用信息增益和Shapley值对协作机器学习中每方的数据进行估值,并通过将高斯噪声注入聚合数据来实现奖励;在合成数据和真实数据集上展示了性质和经验性能。
Collaborative machine learning (ML) is an appealing paradigm to build high-quality ML models by training on the aggregated data from many parties. However, these parties are only willing to share their data when given enough incentives, such as a guaranteed fair reward based on their contributions. This motivates the need for measuring a party's contribution and designing an incentive-aware reward scheme accordingly. This paper proposes to value a party's reward based on Shapley value and information gain on model parameters given its data. Subsequently, we give each party a model as a reward. To formally incentivize the collaboration, we define some desirable properties (e.g., fairness and stability) which are inspired by cooperative game theory but adapted for our model reward that is uniquely freely replicable. Then, we propose a novel model reward scheme to satisfy fairness and trade off between the desirable properties via an adjustable parameter. The value of each party's model reward determined by our scheme is attained by injecting Gaussian noise to the aggregated training data with an optimized noise variance. We empirically demonstrate interesting properties of our scheme and evaluate its performance using synthetic and real-world datasets.
研究动机与目标
- 激励协作型机器学习,使参与者在共享数据时获得公平激励。
- 利用模型参数上的信息增益对每一方的数据进行估值,以反映数据的信息量。
- 设计在可自由复制的奖励下实现公平性、稳定性和群体福利的模型奖励方案。
- 通过对聚合数据引入经过优化的高斯噪声来实现计算出的奖励。
- 在合成数据和真实世界数据集上进行经验评估,以说明性质和性能。
提出的方法
- 在给定联盟数据的情况下,通过模型参数上的信息增益对数据进行估值。
- 将合作博弈论激励适应为可自由复制的模型奖励(Shapley 公平性、稳定性、个体理性、群体福利)。
- 引入 rho-Shapley 公平性,通过可调参数 rho 在公平性与其他激励之间进行权衡。
- 将Shapley值映射到奖励,公式为 r_i = (phi_i/phi*)^rho * v_N,以实现 rho-Shapley 公平性。
- 通过向其他方的数据中注入高斯噪声并优化噪声方差 eta_i 以匹配目标奖励来实现奖励。
- 在合成数据和真实数据集上使用贝叶斯回归模型进行经验评估,以研究信息增益和奖励行为。
实验结果
研究问题
- RQ1应如何对多方贡献的数据进行估值以激励协作?
- RQ2在协作训练的模型场景中,奖励方案是否能够保证公平性、稳定性和个体理性?
- RQ3在实际操作中如何在不进行过多数据子集选择的情况下实现所确定的模型奖励?
- RQ4rho 参数对公平性、群体福利和稳定性的影响是什么?
主要发现
- 作者通过模型参数上的信息增益定义了一种数据估值方法,避免依赖共同的验证数据集。
- 提出并扩展基于Shapley的公平框架至rho-Shapley公平,以平衡激励;奖励按常数k和幂指数rho进行缩放。
- 奖励方案满足非负性、可行性、弱有效性、公平性等性质,在数据价值单调时还能促进大联盟的稳定性。
- 通过向其他方的数据添加高斯噪声并优化连续的噪声方差参数以实现目标奖励。
- 在合成的 Friedman 数据和真实世界数据集(糖尿病进展、加州房价)上的经验评估表明信息增益与预测性能相关,以及 rho 如何影响 IG 与 MNLP 指标。
- 该方法强调通过将模型奖励建模为可自由复制的数字商品,可在不需要货币补偿的情况下激励协作的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。