QUICK REVIEW

[论文解读] Efficient Deep Learning on Multi-Source Private Data

Nick Hynes, Raymond Cheng|arXiv (Cornell University)|Jul 17, 2018

Privacy-Preserving Technologies in Data参考文献 28被引用 78

一句话总结

Myelin 是一个深度学习框架，利用可信硬件 enclaves 在多源私有数据上进行完全私有、差分隐私保护的训练，性能与非私有 CPU 训练相当。

ABSTRACT

Machine learning models benefit from large and diverse datasets. Using such datasets, however, often requires trusting a centralized data aggregator. For sensitive applications like healthcare and finance this is undesirable as it could compromise patient privacy or divulge trade secrets. Recent advances in secure and privacy-preserving computation, including trusted hardware enclaves and differential privacy, offer a way for mutually distrusting parties to efficiently train a machine learning model without revealing the training data. In this work, we introduce Myelin, a deep learning framework which combines these privacy-preservation primitives, and use it to establish a baseline level of performance for fully private machine learning.

研究动机与目标

在来自多个私有源的数据有价值但敏感时，激发对隐私保护的机器学习的需求。
提出一个系统（Myelin），将可信硬件 enclaves 与差分隐私和数据不可知计算相结合。
展示在实用卷积神经网络模型上进行全私有训练的基线性能。
展示 TVM 生成的、面向 enclave 的库如何在商用硬件上实现高效私有训练。

提出的方法

利用可信硬件 enclave（如 SGX）来隔离训练数据和模型参数。
通过对逐样本梯度进行裁剪并利用矩量账户加入高斯噪声来对 SGD 应用差分隐私。
实现数据不可知算法和固定大小数据块分割，以缓解侧信道和时间泄漏。
利用 TVM 生成最小化、融合的算子库以提高 enclave 效率并降低 TCB（可信计算基线）。
调度计算以最大化并行性，并将隐私相关步骤（裁剪、添加噪声、求和）融合以隐藏延迟。
支持基于 enclave 的分布式训练并通过多线程利用商用硬件。

实验结果

研究问题

RQ1在利用可信硬件进行完全私有训练时，是否能够在多源私有数据上实现对深度学习模型的实际可用性能？
RQ2在 enclave 内应用差分隐私和数据不可知方法时，精度与速度的权衡如何？
RQ3在吞吐量和模型准确性方面，Myelin 与密码学方法或多 enclave 方法相比如何？
RQ4哪些架构选项（例如 TVM 生成的算子、逐样本梯度处理等）在实践中最能支持 DP 和数据不可知性？

主要发现

模型	框架/方法	训练时间/轮次	测试（Img/s）	测试准确度或速度
VGG9	Gazelle (HE+GC)	–	0.08	93.1
Myelin	Chiron (4 enclaves)	6.74	–	88.1
Myelin (1 enclave)	–	6.68	521	89.5
ResNet-32	Myelin	11.4	476	92.4
MobileNet	Slalom (1 enclave+GPU)	–	35.7	71.0
Myelin (1 enclave)	–	35.1	–	71.0
VGG9	non-private CPU (baseline)	6.12	–	89.5
Myelin	(DP training)	6.68	–	84.4
ResNet-32	non-private CPU (baseline)	12.3	–	92.4
Myelin	(DP training)	12.9	–	90.8

在 VGG9 和 ResNet-32 上的完全私有 Myelin 训练在速度和精度上与非私有 CPU 训练具有竞争力，这归功于 DP、数据不可知性和优化的 enclave 用户体验。
在某些配置下，单个 Myelin enclave 的性能可超越四个 Chiron enclave 的分布式设置，说明基于 enclave 的效率提升。
在 CIFAR-10 上，使用 Myelin 的私有训练的测试准确度接近非私有基线（例如 VGG9 私有 84.4% 对比非私有 89.5%；ResNet-32 私有 90.8% 对比非私有 92.4%）。
在 Myelin 内对私有训练的 MobileNet 进行推理，在速度上与 Slalom 等隐私保护推理基线相匹配，且精度相当。
与密码学方法（例如 Gazelle）和基于 GPU 的方案（Slalom）相比，Myelin 在单个 enclave 内显示出更有利的速度/准确性权衡。
结果为在商用硬件上使用硬件 enclave 实现的完全私有机器学习性能建立了基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。