[论文解读] Defending Against Machine Learning Model Stealing Attacks Using Deceptive Perturbations
本文提出一种防御机器学习模型盗取攻击的方法,通过向模型输出概率中注入欺骗性扰动,在保持顶级-1准确率的同时,迫使攻击者放弃使用概率分数。该方法即使在防御意识强的攻击者下,也能使盗取模型的准确率降低至少20%,或使查询成本增加至64倍,同时对受保护模型的实用性影响极小。
Machine learning models are vulnerable to simple model stealing attacks if the adversary can obtain output labels for chosen inputs. To protect against these attacks, it has been proposed to limit the information provided to the adversary by omitting probability scores, significantly impacting the utility of the provided service. In this work, we illustrate how a service provider can still provide useful, albeit misleading, class probability information, while significantly limiting the success of the attack. Our defense forces the adversary to discard the class probabilities, requiring significantly more queries before they can train a model with comparable performance. We evaluate several attack strategies, model architectures, and hyperparameters under varying adversarial models, and evaluate the efficacy of our defense against the strongest adversary. Finally, we quantify the amount of noise injected into the class probabilities to mesure the loss in utility, e.g., adding 1.26 nats per query on CIFAR-10 and 3.27 on MNIST. Our evaluation shows our defense can degrade the accuracy of the stolen model at least 20%, or require up to 64 times more queries while keeping the accuracy of the protected model almost intact.
研究动机与目标
- 为应对通过云环境推理API进行的机器学习模型盗取攻击日益增长的威胁,此类攻击中攻击者利用模型置信度分数来复制专有模型。
- 在显著降低盗取模型性能的同时,保持受保护模型的高实用性。
- 迫使攻击者放弃基于概率的查询,转而使用更慢的仅标签查询攻击,即使他们已知晓防御机制。
- 评估该防御在面对高级防御意识攻击(包括噪声反演和替代损失函数)时的鲁棒性。
提出的方法
- 引入一种可逆的非线性扰动层——Reverse Sigmoid,应用于模型输出概率,以扭曲置信度分数,同时保持正确预测类别的不变。
- 该防御在Softmax之前向logits注入受控噪声,使概率值对攻击者具有误导性,但对合法用户仍能保持顶级-1预测正确。
- 扰动设计具有模糊性,使得多个原始logits映射到相同的概率值,从而破坏基于梯度的模型反演和迁移学习。
- 使用多种攻击策略进行评估:基于概率的查询(如Sample)、仅标签查询(Argmax),以及防御意识攻击如噪声反演和MSE损失优化。
- 采用线性回归和多层感知机(MLP)模型尝试反演扰动,模拟现实世界中的逆向工程攻击。
- 通过KL散度和nats量化实用性损失,并使用模型一致性、余弦相似度以及盗取模型上的准确率来衡量攻击成功率。
实验结果
研究问题
- RQ1一种在保持顶级-1准确率的同时,能否仍使使用置信度分数的攻击者所盗取模型的性能下降?
- RQ2当攻击者知晓防御机制并尝试反演或适应该防御时,该防御的有效性如何?
- RQ3该防御在多大程度上增加了成功模型盗取所需的查询预算?
- RQ4攻击者能否通过反演攻击恢复原始模型概率?这些攻击的性能如何?
- RQ5该防御在不同数据集、模型架构和攻击参数下的表现如何?
主要发现
- 该防御在所有评估的数据集和架构上,均使盗取模型的准确率降低至少20%,即使在强攻击条件下亦如此。
- 当放弃使用概率分数时,攻击者需最多增加64倍的查询次数才能达到相近性能,迫使他们转而使用仅Argmax的基线方法。
- 在CIFAR-10上,该防御每查询注入1.26 nats的噪声;在MNIST上为3.27 nats,对受保护模型的准确率影响极小。
- 即使完全知晓防御参数,攻击者仍无法恢复出有用的概率分布——MLP反演的模型一致性仅为0.22,远低于仅Argmax基线的0.78。
- 由于扰动映射本身具有内在模糊性,Reverse Sigmoid防御对使用相同防御层或MSE损失的攻击仍保持有效性。
- 该防御在保持合法用户高实用性的同时,显著降低了盗取模型的泛化能力和可迁移性,尤其在对抗样本生成方面表现突出。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。