[论文解读] CryptoDL: Deep Neural Networks over Encrypted Data
本论文提出一种在加密数据上进行隐私保护的 CNN 分类方法,通过用低阶多项式近似激活函数(ReLU、Sigmoid、Tanh)以适用于分级同态加密,并在MNIST和CIFAR-10上展示具有竞争力的结果以及吞吐量测量。
Machine learning algorithms based on deep neural networks have achieved remarkable results and are being extensively used in different domains. However, the machine learning algorithms requires access to raw data which is often privacy sensitive. To address this issue, we develop new techniques to provide solutions for running deep neural networks over encrypted data. In this paper, we develop new techniques to adopt deep neural networks within the practical limitation of current homomorphic encryption schemes. More specifically, we focus on classification of the well-known convolutional neural networks (CNN). First, we design methods for approximation of the activation functions commonly used in CNNs (i.e. ReLU, Sigmoid, and Tanh) with low degree polynomials which is essential for efficient homomorphic encryption schemes. Then, we train convolutional neural networks with the approximation polynomials instead of original activation functions and analyze the performance of the models. Finally, we implement convolutional neural networks over encrypted data and measure performance of the models. Our experimental results validate the soundness of our approach with several convolutional neural networks with varying number of layers and structures. When applied to the MNIST optical character recognition tasks, our approach achieves 99.52\% accuracy which significantly outperforms the state-of-the-art solutions and is very close to the accuracy of the best non-private version, 99.77\%. Also, it can make close to 164000 predictions per hour. We also applied our approach to CIFAR-10, which is much more complex compared to MNIST, and were able to achieve 91.5\% accuracy with approximation polynomials used as activation functions. These results show that CryptoDL provides efficient, accurate and scalable privacy-preserving predictions.
研究动机与目标
- 在 CNN 推理中通过对加密数据进行计算来解决隐私问题。
- 开发对 HE 友好的多项式激活(仅加法和乘法)。
- 从理论上证明多项式近似质量与阶次选择的合理性。
- 在 MNIST 和 CIFAR-10 上对加密推理下的 CNN 性能进行实证评估。
- 在 HE 限制下评估在准确性和预测吞吐量方面的实用性。
提出的方法
- 为用低阶多项式近似连续函数提供理论基础(以 Stone–Weierstrass 框架结合 2-范数/误差考量)。
- 开发对 ReLU、Sigmoid、Tanh 的多项式近似,强调低阶以适应分级 HE 方案。
- 在 MNIST/CIFAR-10 上使用多项式激活训练 CNN,并在明文基线中对比原始激活。
- 使用 HE(HELib)在加密数据上实现 CNN,并评估加密推理的性能与准确性。
- 分析多项式阶次、近似质量与计算效率之间的权衡。
实验结果
研究问题
- RQ1激活函数能否被低阶多项式在同态加密中得到准确近似?
- RQ2对 HE 友好激活的多项式阶次对 CNN 分类准确性的影响如何?
- RQ3在标准基准数据集(MNIST、CIFAR-10)上,基于 HE 的隐私保护 CNN 的表现与明文模型相比如何?
- RQ4加密 CNN 推理的吞吐量及其在实际应用中的可行性如何?
主要发现
| 激活函数 | 原模型 | 多项式模型 |
|---|---|---|
| ReLU | 99.56% | 99.52% |
| Sigmoid | 98.85% | 98.94% |
| Tanh | 97.27% | 98.15% |
- 在 MNIST 上,带有多项式激活的 CNN 达到 99.52% 的准确率,而原始 ReLU 模型为 99.56%。
- 在更深的 CNN 上,使用多项式激活的准确率达到 99.32%,随着深度增加与明文性能的接近程度提高。
- 对于 ReLU 的二阶/三阶多项式,在某些设置下仍保持较强的准确性(例如 98.52%,在更高的阶次下为 99.21%)。
- 在 CIFAR-10 上,该方法使用近似多项式达到 91.5% 的准确率。
- 使用 HELib 的加密推理实验表明在 SIMD 批处理下具有实际可用的性能,并给出加密/分类时间的测量,MNIST 的吞吐量最高可达约 164,000 次/小时。
- 结果表明 CryptoDL 提供高效、准确且可扩展的隐私保护预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。