[论文解读] Efficient Deep Learning on Multi-Source Private Data
Myelin 是一个深度学习框架,利用可信硬件 enclaves 在多源私有数据上进行完全私有、差分隐私保护的训练,性能与非私有 CPU 训练相当。
Machine learning models benefit from large and diverse datasets. Using such datasets, however, often requires trusting a centralized data aggregator. For sensitive applications like healthcare and finance this is undesirable as it could compromise patient privacy or divulge trade secrets. Recent advances in secure and privacy-preserving computation, including trusted hardware enclaves and differential privacy, offer a way for mutually distrusting parties to efficiently train a machine learning model without revealing the training data. In this work, we introduce Myelin, a deep learning framework which combines these privacy-preservation primitives, and use it to establish a baseline level of performance for fully private machine learning.
研究动机与目标
- 在来自多个私有源的数据有价值但敏感时,激发对隐私保护的机器学习的需求。
- 提出一个系统(Myelin),将可信硬件 enclaves 与差分隐私和数据不可知计算相结合。
- 展示在实用卷积神经网络模型上进行全私有训练的基线性能。
- 展示 TVM 生成的、面向 enclave 的库如何在商用硬件上实现高效私有训练。
提出的方法
- 利用可信硬件 enclave(如 SGX)来隔离训练数据和模型参数。
- 通过对逐样本梯度进行裁剪并利用矩量账户加入高斯噪声来对 SGD 应用差分隐私。
- 实现数据不可知算法和固定大小数据块分割,以缓解侧信道和时间泄漏。
- 利用 TVM 生成最小化、融合的算子库以提高 enclave 效率并降低 TCB(可信计算基线)。
- 调度计算以最大化并行性,并将隐私相关步骤(裁剪、添加噪声、求和)融合以隐藏延迟。
- 支持基于 enclave 的分布式训练并通过多线程利用商用硬件。
实验结果
研究问题
- RQ1在利用可信硬件进行完全私有训练时,是否能够在多源私有数据上实现对深度学习模型的实际可用性能?
- RQ2在 enclave 内应用差分隐私和数据不可知方法时,精度与速度的权衡如何?
- RQ3在吞吐量和模型准确性方面,Myelin 与密码学方法或多 enclave 方法相比如何?
- RQ4哪些架构选项(例如 TVM 生成的算子、逐样本梯度处理等)在实践中最能支持 DP 和数据不可知性?
主要发现
| 模型 | 框架/方法 | 训练时间/轮次 | 测试(Img/s) | 测试准确度或速度 |
|---|---|---|---|---|
| VGG9 | Gazelle (HE+GC) | – | 0.08 | 93.1 |
| Myelin | Chiron (4 enclaves) | 6.74 | – | 88.1 |
| Myelin (1 enclave) | – | 6.68 | 521 | 89.5 |
| ResNet-32 | Myelin | 11.4 | 476 | 92.4 |
| MobileNet | Slalom (1 enclave+GPU) | – | 35.7 | 71.0 |
| Myelin (1 enclave) | – | 35.1 | – | 71.0 |
| VGG9 | non-private CPU (baseline) | 6.12 | – | 89.5 |
| Myelin | (DP training) | 6.68 | – | 84.4 |
| ResNet-32 | non-private CPU (baseline) | 12.3 | – | 92.4 |
| Myelin | (DP training) | 12.9 | – | 90.8 |
- 在 VGG9 和 ResNet-32 上的完全私有 Myelin 训练在速度和精度上与非私有 CPU 训练具有竞争力,这归功于 DP、数据不可知性和优化的 enclave 用户体验。
- 在某些配置下,单个 Myelin enclave 的性能可超越四个 Chiron enclave 的分布式设置,说明基于 enclave 的效率提升。
- 在 CIFAR-10 上,使用 Myelin 的私有训练的测试准确度接近非私有基线(例如 VGG9 私有 84.4% 对比 非私有 89.5%;ResNet-32 私有 90.8% 对比 非私有 92.4%)。
- 在 Myelin 内对私有训练的 MobileNet 进行推理,在速度上与 Slalom 等隐私保护推理基线相匹配,且精度相当。
- 与密码学方法(例如 Gazelle)和基于 GPU 的方案(Slalom)相比,Myelin 在单个 enclave 内显示出更有利的速度/准确性权衡。
- 结果为在商用硬件上使用硬件 enclave 实现的完全私有机器学习性能建立了基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。