QUICK REVIEW

[论文解读] Additively Homomorphical Encryption based Deep Neural Network for Asymmetrically Collaborative Machine Learning

Yifei Zhang, Hao Zhu|arXiv (Cornell University)|Jul 14, 2020

Privacy-Preserving Technologies in Data参考文献 20被引用 29

一句话总结

本文提出了一种新颖的隐私保护深度学习框架，用于非对称协作机器学习，其中一方持有数据，另一方持有标签。通过将网络拆分为未加密的特征提取器和加密的分类器，并设计基于同态加密的反向传播协议，该方法在无精度损失的情况下，相比最先进系统实现了超过100倍的加速，使金融和保险领域能够实现高效且私密的模型训练。

ABSTRACT

The financial sector presents many opportunities to apply various machine learning techniques. Centralized machine learning creates a constraint which limits further applications in finance sectors. Data privacy is a fundamental challenge for a variety of finance and insurance applications that account on learning a model across different sections. In this paper, we define a new practical scheme of collaborative machine learning that one party owns data, but another party owns labels only, and term this extbf{Asymmetrically Collaborative Machine Learning}. For this scheme, we propose a novel privacy-preserving architecture where two parties can collaboratively train a deep learning model efficiently while preserving the privacy of each party's data. More specifically, we decompose the forward propagation and backpropagation of the neural network into four different steps and propose a novel protocol to handle information leakage in these steps. Our extensive experiments on different datasets demonstrate not only stable training without accuracy loss, but also more than 100 times speedup compared with the state-of-the-art system.

研究动机与目标

解决当数据和标签由不同参与方持有时，协同训练深度神经网络的挑战，特别是在金融和保险等隐私敏感领域。
设计一种高效且隐私保护的训练协议，避免在加密数据上直接计算，从而降低计算开销。
缓解在垂直划分、非对称协作学习设置中反向传播过程中的信息泄露问题。
在复杂数据集（如MNIST和CIFAR-10）上实现高性能训练，同时保护数据和标签隐私。
证明该方法对输入维度和神经网络架构变化具有鲁棒性。

提出的方法

该方法将深度神经网络分解为两个组件：本地未加密的特征提取器和加密的分类器，以最小化同态加密的开销。
前向传播和反向传播被划分为四个独立步骤，以隔离并保护敏感操作，特别是梯度计算。
设计了一种新型基于同态加密的反向传播协议，以防止在特征提取器与分类器之间传输梯度时发生信息泄露。
系统使用加法同态加密（AHE）对加密特征执行计算，确保被动方无法获取原始数据。
特征提取阶段在加密前降低输入维度，显著提高效率并减少同态操作次数。
该方法采用部分同态加密（PHE）实现，相比全同态加密（FHE）速度更快，从而实现实际可用的推理时间。

实验结果

研究问题

RQ1当数据和标签由不同参与方持有时，能否在不暴露原始数据或标签的情况下协同训练深度神经网络？
RQ2在垂直划分、非对称协作学习设置中，如何防止反向传播过程中的信息泄露？
RQ3能否降低加密深度学习的计算成本，以实现在真实数据集（如MNIST和CIFAR-10）上的实际训练？
RQ4与现有基于同态加密的模型相比，该方法在速度和精度方面表现如何？
RQ5该方法对输入维度和神经网络架构变化是否具有鲁棒性？

主要发现

与最先进系统GELU-Net相比，该方法实现了超过100倍的加速，在MNIST上使用LeNet-5的推理时间仅为0.0583秒。
该方法在MNIST上的测试准确率达到99%，与GELU-Net和多项式逻辑回归相比保持一致或更优。
当输出维度相同时，不同架构（如LeNet-5和Conv-1）的计算时间几乎保持不变，表明分类器是主要计算瓶颈。
该方法对输入维度不敏感，MNIST（28×28）和CIFAR-10（32×32×3）的推理时间几乎相同，而直接在加密数据上运算的模型则表现出明显差异。
该方法在速度和准确率上均优于多项式逻辑回归，证明了在加密表示上进行深度特征学习的优势。
该系统高效且可扩展，因为计算成本主要由加密分类器决定，使其适用于更深的网络和更复杂的数据。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。