Skip to main content
QUICK REVIEW

[论文解读] Chiron: Privacy-preserving Machine Learning as a Service

Tyler Hunt, Congzheng Song|arXiv (Cornell University)|Mar 15, 2018
Adversarial Robustness in Machine Learning参考文献 20被引用 177
一句话总结

Chiron 通过使用 SGX enclaves 和一个 Ryoan 沙箱来约束提供方的代码和数据,在不暴露训练数据的情况下在外包服务上训练 ML 模型。它通过参数服务器支持分布式训练,同时保护模型机密性和数据隐私。

ABSTRACT

Major cloud operators offer machine learning (ML) as a service, enabling customers who have the data but not ML expertise or infrastructure to train predictive models on this data. Existing ML-as-a-service platforms require users to reveal all training data to the service operator. We design, implement, and evaluate Chiron, a system for privacy-preserving machine learning as a service. First, Chiron conceals the training data from the service operator. Second, in keeping with how many existing ML-as-a-service platforms work, Chiron reveals neither the training algorithm nor the model structure to the user, providing only black-box access to the trained model. Chiron is implemented using SGX enclaves, but SGX alone does not achieve the dual goals of data privacy and model confidentiality. Chiron runs the standard ML training toolchain (including the popular Theano framework and C compiler) in an enclave, but the untrusted model-creation code from the service operator is further confined in a Ryoan sandbox to prevent it from leaking the training data outside the enclave. To support distributed training, Chiron executes multiple concurrent enclaves that exchange model parameters via a parameter server. We evaluate Chiron on popular deep learning models, focusing on benchmark image classification tasks such as CIFAR and ImageNet, and show that its training performance and accuracy of the resulting models are practical for common uses of ML-as-a-service.

研究动机与目标

  • 使数据所有者能够在外包基础设施上训练 ML 模型,而不向服务提供方暴露训练数据。
  • 通过保密模型细节来保护模型机密性,减少对用户的暴露。
  • 在确保数据隐私的同时,支持使用参数服务器的分布式并发训练。
  • 为 ML 工具链和训练过程提供可验证的、硬件辅助的执行环境。

提出的方法

  • 在受保护环境中使用 SGX enclaves 运行通用的 ML 工具链(Theano)。
  • 用 Ryoan 沙箱约束服务提供方的不可信代码以防止数据泄露。
  • 将模型设计(提供方的专有部分)与模型训练(通用过程)分离。
  • 通过带有固定速率、对数据不可知的交换的参数服务器,在多个 enclaves 之间协调分布式训练。
  • 输出经过加密的训练模型,仅通过用户控制的查询 enclaves 和密钥访问。

实验结果

研究问题

  • RQ1在将 ML 模型在外包基础设施上训练时,如何保护训练数据的隐私?
  • RQ2是否可以对不可信的提供方代码进行约束,使其在允许灵活的模型设计和培训的同时,不能外泄训练数据?
  • RQ3基于硬件的 enclaves 和沙箱对在常见基准测试中的训练性能和模型准确度有何影响?
  • RQ4如何在多个 enclave 之间安全地协调分布式 ML 训练而不泄露数据?
  • RQ5在 CIFAR 和 ImageNet 等现实世界基准中使用 Chiron 进行 ML 即服务的安全性和实用性含义是什么?

主要发现

  • Chiron 使在外包基础设施上进行训练成为可能,同时确保数据保密性,用户以黑箱方式访问模型。
  • 将 SGX enclaves 与 Ryoan 沙箱结合起来,在 enclave 内运行标准 ML 工具链的同时约束不可信的提供方代码。
  • 通过参数服务器在 enclaves 之间进行安全、固定速率的交换来支持分布式训练。
  • 该方法在标准深度学习基准如 CIFAR 和 ImageNet 上进行评估,聚焦于收敛时间、可扩展性和准确性。
  • 在评估设置下,模型训练和推断对于常见的 ML 即服务用例仍然是实用的。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。