Skip to main content
QUICK REVIEW

[论文解读] Privacy in Deep Learning: A Survey

Fatemehsadat Mireshghallah, Mohammadkazem Taram|arXiv (Cornell University)|Apr 25, 2020
Privacy-Preserving Technologies in Data参考文献 152被引用 98
一句话总结

本综述回顾深度学习中的隐私威胁,调查数据聚合、训练和测试时推断的现有防御机制,并强调测试时推断隐私的差距与未来方向。

ABSTRACT

The ever-growing advances of deep learning in many areas including vision, recommendation systems, natural language processing, etc., have led to the adoption of Deep Neural Networks (DNNs) in production systems. The availability of large datasets and high computational power are the main contributors to these advances. The datasets are usually crowdsourced and may contain sensitive information. This poses serious privacy concerns as this data can be misused or leaked through various vulnerabilities. Even if the cloud provider and the communication link is trusted, there are still threats of inference attacks where an attacker could speculate properties of the data used for training, or find the underlying model architecture and parameters. In this survey, we review the privacy concerns brought by deep learning, and the mitigating techniques introduced to tackle these issues. We also show that there is a gap in the literature regarding test-time inference privacy, and propose possible future research directions.

研究动机与目标

  • 激发对来自众包和敏感训练数据在深度学习部署中的隐私担忧。
  • 对深度学习中已知的隐私威胁进行分类和总结,包括直接暴露和间接推断攻击。
  • 调查数据聚合、训练和推断阶段现有的隐私保护机制。
  • 发现文献中的差距,特别是在测试时推断隐私方面,并提出未来研究方向。

提出的方法

  • 目录化隐私威胁:直接信息暴露和间接推断攻击(成员资格推断、模型反演、超参数/参数推断、属性推断)。
  • 将隐私保护方法分为三类:数据聚合隐私、私有训练和私有推断。
  • 描述并比较差分隐私、安全计算(同态加密/安全多方计算)以及信息理论/隐私感知方法。
  • 总结代表性攻击与防御,涉及白盒与黑盒访问以及对置信度/logits的使用。

实验结果

研究问题

  • RQ1在训练和推断过程中,深度学习模型面临的主要隐私威胁是什么?
  • RQ2在数据聚合、私有训练和私有推断方面存在哪些隐私保护机制,它们之间如何比较?
  • RQ3当前研究存在哪些空白,尤其是测试时推断的隐私问题,未来工作应聚焦于何处?

主要发现

  • 隐私威胁包括直接数据暴露(通过数据整理者、通信或云服务)和间接推断攻击(成员资格推断、模型/反演、属性/超参数推断,以及模型窃取)。
  • 隐私保护方法主要分为数据聚合、私有训练和私有推断,核心技术包括差分隐私、同态加密和安全多方计算。
  • 差分隐私可以应用在训练管线的多个点(输入、损失、梯度、输出、标签),并使用如 moments accountant 的组合机制,但可能造成效用损失并对子群体产生差异化影响。
  • 同态加密和安全多方计算使在加密数据上或跨多方进行计算成为可能,但计算和通信成本高,影响神经网络的实际可行性。
  • 在测试时推断隐私方面的文献存在显著差距,与训练相比,较少研究关注在推断时保护用户输入。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。