Skip to main content
QUICK REVIEW

[论文解读] Encrypted statistical machine learning: new privacy preserving methods

Louis J. M. Aslett, Pedro M. Esperança|arXiv (Cornell University)|Aug 27, 2015
Privacy-Preserving Technologies in Data参考文献 15被引用 52
一句话总结

本文提出两种新颖的隐私保护机器学习方法——加密的极权随机森林与加密的朴素贝叶斯,利用全同态加密(FHE)实现对加密数据的安全学习与预测,而无需解密。作者提出一种密码学随机分数估计器用于极权随机森林,以及一种使用逻辑回归定义决策边界的半参数模型,实验证明其在UCI数据集上表现具有竞争力,且与未加密模型完全等价,100棵树的随机森林在1,152个核心上耗时1小时36分钟训练完成,成本为23.86美元。

ABSTRACT

We present two new statistical machine learning methods designed to learn on fully homomorphic encrypted (FHE) data. The introduction of FHE schemes following Gentry (2009) opens up the prospect of privacy preserving statistical machine learning analysis and modelling of encrypted data without compromising security constraints. We propose tailored algorithms for applying extremely random forests, involving a new cryptographic stochastic fraction estimator, and naïve Bayes, involving a semi-parametric model for the class decision boundary, and show how they can be used to learn and predict from encrypted data. We demonstrate that these techniques perform competitively on a variety of classification data sets and provide detailed information about the computational practicalities of these and other FHE methods.

研究动机与目标

  • 实现无需多方计算的端到端加密机器学习,适用于统计模型。
  • 解决全同态加密(FHE)在真实世界机器学习应用中的实际限制。
  • 开发定制化算法,在完全加密数据上运行的同时保持模型准确性。
  • 证明基于FHE的学习在大规模数据上的计算可行性与性能表现,使用云基础设施实现。
  • 提供开源R实现,确保可复现性与隐私保护机器学习的可及性。

提出的方法

  • 提出一种密码学随机分数估计器,用于在FHE环境下近似极权随机森林中的投票过程,实现安全的树构建。
  • 设计一种半参数朴素贝叶斯模型,利用逻辑回归定义类别决策边界,兼容同态运算。
  • 将原始随机森林与朴素贝叶斯算法改造为仅在加密数据上运行,使用同态加密原语。
  • 利用同态加密执行所有操作——训练、预测与模型组合——全程无需解密。
  • 在Amazon EC2上采用分布式、无依赖并行架构,利用抢占式实例将训练扩展至1,152个CPU核心。
  • 设计基于Amazon SQS与S3的任务分发系统,实现地理分布节点间无节点间通信的加密计算协调。

实验结果

研究问题

  • RQ1能否通过全同态加密将极权随机森林完全适配于加密数据上运行?
  • RQ2能否构建一种半参数朴素贝叶斯模型,以支持决策边界的同态计算?
  • RQ3加密机器学习模型在标准基准数据集上的性能与未加密模型相比如何?
  • RQ4基于FHE的机器学习在云基础设施上的实际计算成本与可扩展性特征是什么?
  • RQ5能否在不解密的前提下对加密模型进行同态组合,生成单一统一模型?

主要发现

  • 加密的极权随机森林与朴素贝叶斯模型在多个UCI数据集上实现了与未加密模型相当的分类性能。
  • 当解密后,加密模型的输出与未加密计算结果逐比特完全一致,证实了同态实现的正确性。
  • 使用分布在两个云区域的1,152个CPU核心,100棵树的随机森林在1小时36分钟内训练完成,通过Amazon EC2抢占式实例成本为23.86美元。
  • 最终的100棵树加密森林仅需868MB存储空间,而36个独立的50棵树森林需15.6GB,实现了显著的长期数据压缩。
  • 该方法支持端到端的加密模型拟合与预测,无需多方计算或安全通信通道。
  • 由于原生支持且可并行化的同态加法与乘法操作,该方法具备高效的可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。