Skip to main content
QUICK REVIEW

[论文解读] Efficient Deep Learning on Multi-Source Private Data

Nick Hynes, Raymond Cheng|arXiv (Cornell University)|Jul 17, 2018
Privacy-Preserving Technologies in Data参考文献 28被引用 78
一句话总结

Myelin 是一个深度学习框架,利用可信硬件 enclaves 在多源私有数据上进行完全私有、差分隐私保护的训练,性能与非私有 CPU 训练相当。

ABSTRACT

Machine learning models benefit from large and diverse datasets. Using such datasets, however, often requires trusting a centralized data aggregator. For sensitive applications like healthcare and finance this is undesirable as it could compromise patient privacy or divulge trade secrets. Recent advances in secure and privacy-preserving computation, including trusted hardware enclaves and differential privacy, offer a way for mutually distrusting parties to efficiently train a machine learning model without revealing the training data. In this work, we introduce Myelin, a deep learning framework which combines these privacy-preservation primitives, and use it to establish a baseline level of performance for fully private machine learning.

研究动机与目标

  • 在来自多个私有源的数据有价值但敏感时,激发对隐私保护的机器学习的需求。
  • 提出一个系统(Myelin),将可信硬件 enclaves 与差分隐私和数据不可知计算相结合。
  • 展示在实用卷积神经网络模型上进行全私有训练的基线性能。
  • 展示 TVM 生成的、面向 enclave 的库如何在商用硬件上实现高效私有训练。

提出的方法

  • 利用可信硬件 enclave(如 SGX)来隔离训练数据和模型参数。
  • 通过对逐样本梯度进行裁剪并利用矩量账户加入高斯噪声来对 SGD 应用差分隐私。
  • 实现数据不可知算法和固定大小数据块分割,以缓解侧信道和时间泄漏。
  • 利用 TVM 生成最小化、融合的算子库以提高 enclave 效率并降低 TCB(可信计算基线)。
  • 调度计算以最大化并行性,并将隐私相关步骤(裁剪、添加噪声、求和)融合以隐藏延迟。
  • 支持基于 enclave 的分布式训练并通过多线程利用商用硬件。

实验结果

研究问题

  • RQ1在利用可信硬件进行完全私有训练时,是否能够在多源私有数据上实现对深度学习模型的实际可用性能?
  • RQ2在 enclave 内应用差分隐私和数据不可知方法时,精度与速度的权衡如何?
  • RQ3在吞吐量和模型准确性方面,Myelin 与密码学方法或多 enclave 方法相比如何?
  • RQ4哪些架构选项(例如 TVM 生成的算子、逐样本梯度处理等)在实践中最能支持 DP 和数据不可知性?

主要发现

模型框架/方法训练时间/轮次测试(Img/s)测试准确度或速度
VGG9Gazelle (HE+GC)0.0893.1
MyelinChiron (4 enclaves)6.7488.1
Myelin (1 enclave)6.6852189.5
ResNet-32Myelin11.447692.4
MobileNetSlalom (1 enclave+GPU)35.771.0
Myelin (1 enclave)35.171.0
VGG9non-private CPU (baseline)6.1289.5
Myelin(DP training)6.6884.4
ResNet-32non-private CPU (baseline)12.392.4
Myelin(DP training)12.990.8
  • 在 VGG9 和 ResNet-32 上的完全私有 Myelin 训练在速度和精度上与非私有 CPU 训练具有竞争力,这归功于 DP、数据不可知性和优化的 enclave 用户体验。
  • 在某些配置下,单个 Myelin enclave 的性能可超越四个 Chiron enclave 的分布式设置,说明基于 enclave 的效率提升。
  • 在 CIFAR-10 上,使用 Myelin 的私有训练的测试准确度接近非私有基线(例如 VGG9 私有 84.4% 对比 非私有 89.5%;ResNet-32 私有 90.8% 对比 非私有 92.4%)。
  • 在 Myelin 内对私有训练的 MobileNet 进行推理,在速度上与 Slalom 等隐私保护推理基线相匹配,且精度相当。
  • 与密码学方法(例如 Gazelle)和基于 GPU 的方案(Slalom)相比,Myelin 在单个 enclave 内显示出更有利的速度/准确性权衡。
  • 结果为在商用硬件上使用硬件 enclave 实现的完全私有机器学习性能建立了基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。