QUICK REVIEW

[论文解读] Privacy-Preserving Distributed Deep Learning for Clinical Data

Brett K. Beaulieu‐Jones, William Yuan|arXiv (Cornell University)|Dec 4, 2018

Privacy-Preserving Technologies in Data参考文献 8被引用 28

一句话总结

本文提出了一种差异隐私的分布式深度学习框架，可在不共享原始患者数据的情况下，实现多个医疗机构间神经网络的协作训练。通过结合循环权重传输、Rényi 差异隐私及隐私会计机制，该方法在 eICU 和 TCGA 数据集上实现了可证明的隐私保障，同时保持了较高的模型性能，在分布式私有设置下的 AUROC 分数均高于 0.79。

ABSTRACT

Deep learning with medical data often requires larger samples sizes than are available at single providers. While data sharing among institutions is desirable to train more accurate and sophisticated models, it can lead to severe privacy concerns due the sensitive nature of the data. This problem has motivated a number of studies on distributed training of neural networks that do not require direct sharing of the training data. However, simple distributed training does not offer provable privacy guarantees to satisfy technical safe standards and may reveal information about the underlying patients. We present a method to train neural networks for clinical data in a distributed fashion under differential privacy. We demonstrate these methods on two datasets that include information from multiple independent sites, the eICU collaborative Research Database and The Cancer Genome Atlas.

研究动机与目标

解决因隐私顾虑而无法集中共享数据时，训练准确深度学习模型的挑战。
在机构保留原始数据的分布式训练场景中，提供可证明的隐私保障。
降低通信开销，并消除分布式学习中对中心协调器的需求。
实现对异构、多中心临床数据集（如 eICU 和 TCGA）的隐私保护模型训练。
量化并最小化隐私损失，采用 Rényi 差异隐私与隐私会计机制。

提出的方法

该方法采用循环权重传输机制，实现在无中心服务器情况下的分布式训练，允许机构之间定期交换模型权重。
通过在训练过程中向梯度添加校准噪声来实施差异隐私，噪声尺度 σ 经调优以实现所需的隐私预算（ε, δ）。
基于 Rényi 差异隐私的隐私会计机制用于计算多个训练迭代中的累积隐私损失，相比标准组合定理可获得更紧致的边界。
该框架支持集中式与完全分布式训练模式，隐私保障按机构分别计算，以评估个体风险。
通过在死亡率预测（eICU）和癌症亚型分类（TCGA）任务上的 AUROC 评估模型性能。
数据经最小-最大归一化预处理，并结合特征选择（如 TCGA 中的前 500 个可变基因）以提升数据效用并降低维度。

实验结果

研究问题

RQ1能否设计一种分布式深度学习框架，在无需中央数据存储库的情况下提供可证明的隐私保障？
RQ2将差异隐私与循环权重传输相结合，对多中心临床数据设置下的模型性能有何影响？
RQ3在数据规模各异的机构间进行分布式训练时，隐私预算（ε）与模型准确率之间的权衡如何？
RQ4当数据被分割至小型、非同质的机构且存在潜在分布偏移时，该方法是否仍能保持高性能？
RQ5基于 Rényi 差异隐私的隐私会计机制相比标准组合方法，在此设置中如何改进隐私损失估计？

主要发现

在 eICU 死亡率预测任务中，分布式私有模型在 5 家机构下实现了 0.792 的 AUROC，仅略低于非私有的分布式基线（0.801）。
在 TCGA BRCA 分类任务中，分布式私有模型在 3 个站点下达到 0.744 的 AUROC，与非私有的分布式设置（0.761）相比略有下降。
在分布式 eICU 设置中，所有机构的最大隐私损失（ε）为 3.84，δ 固定为 10−5，表明具有较强的隐私保护能力。
在 TCGA 设置中，分布式情况下的最大 ε 为 6.11，出现在数据量最小的站点（第 #3 个站点），表明隐私损失随数据规模增加而上升。
与以往的集中式私有学习协议相比，该方法显著降低了通信开销，因其避免了与中心服务器频繁交换梯度。
该框架在严格隐私约束下仍成功保持了模型效用，表明差异隐私可有效应用于分布式临床机器学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。