Skip to main content
QUICK REVIEW

[论文解读] On the Connection between Differential Privacy and Adversarial Robustness in Machine Learning

Mathias Lécuyer, Vaggelis Atlidakis|arXiv (Cornell University)|Feb 9, 2018
Adversarial Robustness in Machine Learning参考文献 26被引用 14
一句话总结

本文提出了PixelDP,一种利用差分隐私(DP)为深度神经网络提供对抗样本鲁棒性的形式化、理论保障的方法。通过使用DP训练模型,PixelDP确保对40–60%的输入,其预测对有界ℓ₁范数和ℓ₂范数扰动具有鲁棒性,同时在对抗攻击下实现最先进准确率,并提供经认证的鲁棒性。

ABSTRACT

Adversarial examples in machine learning has been a topic of intense research interest, with attacks and defenses being developed in a tight back-and-forth. Most past defenses are best-effort, heuristic approaches that have all been shown to be vulnerable to sophisticated attacks. More recently, rigorous defenses that provide formal guarantees have emerged, but are hard to scale or generalize. A rigorous and general foundation for designing defenses is required to get us off this arms race trajectory. We propose leveraging differential privacy (DP) as a formal building block for robustness against adversarial examples. We observe that the semantic of DP is closely aligned with the formal definition of robustness to adversarial examples. We propose PixelDP, a strategy for learning robust deep neural networks based on formal DP guarantees. PixelDP networks give theoretical guarantees for a subset of their predictions regarding the robustness against adversarial perturbations of bounded size. Our evaluation with MNIST, CIFAR-10, and CIFAR-100 shows that PixelDP networks achieve accuracy under attack on par with the best-performing defense to date, but additionally certify robustness against meaningful-size 1-norm and 2-norm attacks for 40-60% of their predictions. Our experience points to DP as a rigorous, broadly applicable, and mechanism-rich foundation for robust machine learning.

研究动机与目标

  • 解决深度学习中对抗样本缺乏严格、可泛化的防御方法的问题。
  • 克服启发式防御方法在面对自适应攻击时易被突破的局限性。
  • 以差分隐私为核心构建模块,建立鲁棒机器学习的形式化基础。
  • 以可扩展且机制丰富的形式,为有界对抗扰动提供鲁棒性的理论保障。
  • 证明基于DP的训练可同时实现对抗攻击下的高准确率与对大量预测的经认证鲁棒性。

提出的方法

  • 将差分隐私应用于深度神经网络的训练过程,以确保模型预测对小的输入扰动不敏感。
  • 使用DP-SGD(带噪声注入的随机梯度下降)训练模型,获得形式化的隐私保障,该保障可转化为鲁棒性。
  • 基于隐私预算(ε)推导鲁棒性认证,确保在有界ℓ₁范数和ℓ₂范数扰动下预测结果保持不变。
  • 设计一种机制,利用模型输出对输入变化的敏感性,计算并传播单个预测的鲁棒性认证。
  • 利用DP的不可区分性概念与对抗鲁棒性之间的语义对齐,形式化鲁棒性保障。
  • 将PixelDP实现为一个集成DP训练与逐样本鲁棒性认证的训练与推理流水线。

实验结果

研究问题

  • RQ1差分隐私能否作为深度学习中对抗鲁棒性的形式化基础?
  • RQ2基于DP的训练在多大程度上能为ℓ₁范数和ℓ₂范数有界对抗攻击提供经认证的鲁棒性?
  • RQ3基于DP的模型在对抗攻击下的准确率与最先进启发式防御方法相比如何?
  • RQ4使用所提出的基于DP的方法,能对多少比例的预测实现形式化鲁棒性认证?
  • RQ5所提出的方法能否在MNIST、CIFAR-10和CIFAR-100等标准视觉基准上实现可扩展性,同时保持强鲁棒性保障?

主要发现

  • PixelDP网络在MNIST、CIFAR-10和CIFAR-100上的对抗攻击下准确率与当前最佳防御方法相当。
  • 对于40–60%的预测,PixelDP可对有意义大小的ℓ₁范数和ℓ₂范数扰动提供形式化鲁棒性认证。
  • 该方法基于差分隐私提供理论保障,使其对能破坏启发式防御的自适应攻击具有鲁棒性。
  • 鲁棒性认证按预测粒度计算,支持在需要时选择性地部署鲁棒推理。
  • 该方法表明,DP可作为机制丰富、可扩展且通用的鲁棒机器学习基础。
  • 结果证实,DP与对抗鲁棒性之间的语义对齐,使得在不牺牲性能的前提下实现形式化、可认证的防御成为可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。