QUICK REVIEW

[论文解读] Differential Privacy-enabled Federated Learning for Sensitive Health Data

Olivia Choudhury, Aris Gkoulalas-Divanis|arXiv (Cornell University)|Oct 7, 2019

Privacy-Preserving Technologies in Data参考文献 31被引用 169

一句话总结

本文提出一个用于分布式健康数据的联邦学习框架，在两个层面上保护隐私——不共享原始数据，以及通过目标扰动实现差分隐私——并使用真实世界数据集评估其对性能的影响。

ABSTRACT

Leveraging real-world health data for machine learning tasks requires addressing many practical challenges, such as distributed data silos, privacy concerns with creating a centralized database from person-specific sensitive data, resource constraints for transferring and integrating data from multiple sites, and risk of a single point of failure. In this paper, we introduce a federated learning framework that can learn a global model from distributed health data held locally at different sites. The framework offers two levels of privacy protection. First, it does not move or share raw data across sites or with a centralized server during the model training process. Second, it uses a differential privacy mechanism to further protect the model from potential privacy attacks. We perform a comprehensive evaluation of our approach on two healthcare applications, using real-world electronic health data of 1 million patients. We demonstrate the feasibility and effectiveness of the federated learning framework in offering an elevated level of privacy and maintaining utility of the global model.

研究动机与目标

在受监管约束下，动机并解决跨数据孤岛从分布式、敏感健康数据中学习的挑战。
提出一个联邦学习框架，避免共享原始数据并结合差分隐私以保护模型更新。
在医疗任务中评估隐私（epsilon）与效用（模型性能）之间的权衡。
在真实世界数据集上演示该框架，以评估可行性及隐私-效用平衡。

提出的方法

描述一个联邦学习设置：本地站点在其数据上训练全局模型，并仅共享用于聚合的参数更新。
通过对局部目标函数添加噪声以获得私有最小化解，结合目标扰动实现差分隐私。
聚焦可梯度下降的分类器（感知机、SVM、逻辑回归），这些适用于分布式训练。
通过改变DP参数epsilon并测量F1分数来评估隐私-效用权衡。
使用真实世界的健康数据集（LCED用于ADR预测，MIMIC III用于死亡率预测）跨越10个站点。
比较集中学习、标准联邦学习以及带DP的联邦学习，在多种模型和不同隐私级别下进行比较。

实验结果

研究问题

RQ1在不共享原始数据的情况下，联邦学习在分布式医疗数据上的性能如何？
RQ2通过目标扰动加入epsilon-DP对联邦模型在医疗任务上的预测性能有何影响？
RQ3在真实世界的健康应用中，带DP的FL模型能否维持与集中式或标准FL相当的效用？
RQ4在将DP应用于医疗数据集的联邦学习时，会出现哪些隐私-效用权衡？

主要发现

在ADR（LCED）和死亡率（MIMIC III）任务中，未使用差分隐私的联邦学习的性能接近集中学习。
引入epsilon差分隐私由于分布式训练过程中的噪声而降低模型效用。
带DP的FL提供更强的隐私保障，但在医疗场景中可能显著降低预测性能。
在不同数据集和分类器中，随着隐私程度的提高（epsilon越小），效用下降，表明存在隐私-效用权衡。
结果表明，在站点数据有限的现实医疗场景中，DP可能并非最优的FL方案，促使对替代隐私方法的探索。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。