[论文解读] PRADA: Protecting against DNN Model Stealing Attacks
PRADA 是一种新颖的通用防御机制,通过分析客户端连续 API 查询的分布来检测深度神经网络(DNN)模型盗取攻击;它能以 100% 的准确率检测出所有先前的模型提取攻击,且零误报,方法是识别与正常(高斯)查询模式的偏差,提供一种轻量级、有状态的检测机制,适用于多种 DNN 模型和输入数据类型。
Machine learning (ML) applications are increasingly prevalent. Protecting the confidentiality of ML models becomes paramount for two reasons: (a) a model can be a business advantage to its owner, and (b) an adversary may use a stolen model to find transferable adversarial examples that can evade classification by the original model. Access to the model can be restricted to be only via well-defined prediction APIs. Nevertheless, prediction APIs still provide enough information to allow an adversary to mount model extraction attacks by sending repeated queries via the prediction API. In this paper, we describe new model extraction attacks using novel approaches for generating synthetic queries, and optimizing training hyperparameters. Our attacks outperform state-of-the-art model extraction in terms of transferability of both targeted and non-targeted adversarial examples (up to +29-44 percentage points, pp), and prediction accuracy (up to +46 pp) on two datasets. We provide take-aways on how to perform effective model extraction attacks. We then propose PRADA, the first step towards generic and effective detection of DNN model extraction attacks. It analyzes the distribution of consecutive API queries and raises an alarm when this distribution deviates from benign behavior. We show that PRADA can detect all prior model extraction attacks with no false positives.
研究动机与目标
- 证明通过优化合成查询和超参数调优,可实现高效、通用的 DNN 模型提取攻击的可行性。
- 识别影响模型提取成功率的关键因素,如超参数选择、输出精度(概率 vs. 标签)以及替代模型架构。
- 提出 PRADA,首个通用的、有状态的防御机制,通过监控单个客户端连续查询分布的偏差来检测模型提取攻击。
- 提供一种对多种 DNN 模型和输入数据类型均有效的检测机制,且无需依赖模型或数据分布假设。
- 提供一种实用的开源解决方案,保护机器学习即服务(MLaaS)和 API 托管模型免受模型盗取攻击,同时保持合法客户端的服务可用性。
提出的方法
- 提出新型模型提取攻击,利用优化技术生成合成查询,以最大化从目标模型预测 API 中获取的信息量。
- 采用交叉验证的超参数搜索方法,提升替代模型的性能,优于随机或固定超参数选择。
- 分析预测输出格式(类别标签与置信度概率)对替代模型准确率及对抗样本可迁移性的影响。
- 设计 PRADA 作为一种有状态防御机制,监控来自单个客户端的连续查询分布,将正常行为建模为高斯分布。
- 当查询分布显著偏离预期的高斯分布时触发警报,表明可能存在模型提取活动。
- 使用统计假设检验(如 Kolmogorov-Smirnov 检验)检测查询序列中的非高斯行为,实现实时检测,且无需了解模型或数据分布知识。
实验结果
研究问题
- RQ1通过优化合成查询生成和训练超参数,是否能显著提升模型提取攻击的性能?
- RQ2使用预测概率而非仅类别标签,对对抗样本的可迁移性及替代模型准确率有何影响?
- RQ3目标模型与替代模型之间的架构相似性在多大程度上影响模型提取攻击的成功率?
- RQ4能否设计一种通用的、有状态的检测机制,在不产生误报的情况下,适用于多种 DNN 模型和输入数据类型?
- RQ5是否可能在不事先了解训练数据分布或模型架构的情况下检测模型盗取攻击?
主要发现
- 所提出的模型提取攻击相比先前最先进方法,预测准确率最高提升 46 个百分点,对抗样本可迁移性提升 29–44 个百分点。
- 交叉验证的超参数搜索显著提升了替代模型性能,优于固定或随机选择的超参数。
- 预测概率对于实现高对抗样本可迁移性至关重要,而仅使用类别标签已足以实现高替代模型准确率。
- 使用相同架构的替代模型可提升可迁移性,而更复杂的架构则可提高预测准确率。
- PRADA 对所有先前的模型提取攻击均实现 100% 检测率且零误报,即使在不同良性数据分布上测试亦成立。
- PRADA 在不同 DNN 模型和输入数据类型上均有效,且不会降低合法预测服务的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。