[论文解读] Prediction Poisoning: Towards Defenses Against DNN Model Stealing Attacks
本论文提出 MAD,一种主动防御,通过扰动黑盒预测来污染窃取者的训练目标,在对 benign 准确率影响最小的情况下显著降低被窃模型的准确性。
High-performance Deep Neural Networks (DNNs) are increasingly deployed in many real-world applications e.g., cloud prediction APIs. Recent advances in model functionality stealing attacks via black-box access (i.e., inputs in, predictions out) threaten the business model of such applications, which require a lot of time, money, and effort to develop. Existing defenses take a passive role against stealing attacks, such as by truncating predicted information. We find such passive defenses ineffective against DNN stealing attacks. In this paper, we propose the first defense which actively perturbs predictions targeted at poisoning the training objective of the attacker. We find our defense effective across a wide range of challenging datasets and DNN model stealing attacks, and additionally outperforms existing defenses. Our defense is the first that can withstand highly accurate model stealing attacks for tens of thousands of queries, amplifying the attacker's error rate up to a factor of 85$ imes$ with minimal impact on the utility for benign users.
研究动机与目标
- 动机并形式化通过黑箱查询进行模型功能窃取及其对有价值的 DNN 模型的相关风险。
- 提出一种主动防御,通过扰动预测来污染攻击者的训练目标,同时保留防御者的效用。
- 开发一种在效用和单纯形约束下生成扰动的实用求解器。
- 在多种受害模型、数据集和窃取攻击下证明防御的鲁棒性。
- 与基线防御进行比较,以确立在不可复制性和攻击缓解效率方面的改进。
提出的方法
- 将防御形式化为在效用约束下最大化攻击者梯度与防御者污染梯度之间的角度偏差。
- 使用相对于防御者参数的对数概率的代理雅可比矩阵 G 来建模攻击者梯度。
- 对后验预测 y 进行扰动以获得 y~,使其最大化角度偏差,同时保持 y~ 位于概率单纯形内并在扰动预算 epsilon 之内。
- 通过两步求解器近似梯度优化,该求解器搜索单纯形的极点并通过与原始 y 的凸组合形成扰动。
- 引入一个 MAD-argmax 变体,额外通过将扰动限制为与 argmax 对齐来保持前 1 标签。
- 使用六个受害模型、若干数据集和四种窃取攻击进行评估,比较基线防御如 reverse-sigmoid、随机噪声和 DP-SGD。
实验结果
研究问题
- RQ1主动扰动预测是否能够在不过度损害防御者效用的前提下有效降低被窃模型的性能?
- RQ2在现实预算下,最大化防御者与攻击者训练梯度之间的角度偏差是否能稳健地削弱各种模型窃取攻击?
- RQ3在不可复制性、效用和扰动幅度方面,MAD 与现有基于扰动的防御相比如何?
- RQ4在多样化数据集和受害架构上是否有效,包括 CIFAR/CUB200 上的更强的 DNN,如 VGG16?
- RQ5攻击者可能采取哪些对策,MAD 对此类颠覆的鲁棒性如何?
主要发现
- MAD 在所有测试数据集和攻击中一致降低攻击者的性能,在低扰动下防守者的准确率接近未防守水平。
- 在 MNIST 上,防御可以将攻击者的准确率降低最多约一半(例如 jbtop3 降低 52%),防守者准确率损失不到 1%。
- 在像 CUB200 这样的数据集中,最强攻击的准确率显著下降(例如 Knockoff 攻击下降 23%),防守者效用损失很小(约 ~2%)。
- MAD-argmax 在保持 top-1 标签的同时仍然降低攻击者性能,在较低扰动下实现具有竞争力的不可复制性。
- MAD 在相似或更好的不可复制性下,扰动更小,优于基线防御(reverse-sigmoid、随机噪声、DP-SGD)。
- 消融研究显示使用梯度基的 G 和定向极点扰动至关重要;随机扰动表现更差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。