[论文解读] Sampling Attacks: Amplification of Membership Inference Attacks by Repeated Queries
本文提出了一种新颖的采样探测攻击,仅通过模型预测标签即可实现对机器学习模型的有效成员推断,无需依赖置信度分数。当存在分数时,该攻击可达到标准方法100%的性能;同时表明,即使在DP-SGD和输出扰动等防御机制下,该攻击依然有效,其中DP-Logits在极低的效用损失下提供了强大的隐私保护。
Machine learning models have been shown to leak information violating the privacy of their training set. We focus on membership inference attacks on machine learning models which aim to determine whether a data point was used to train the victim model. Our work consists of two sides: We introduce sampling attack, a novel membership inference technique that unlike other standard membership adversaries is able to work under severe restriction of no access to scores of the victim model. We show that a victim model that only publishes the labels is still susceptible to sampling attacks and the adversary can recover up to 100% of its performance compared to when posterior vectors are provided. The other sides of our work includes experimental results on two recent membership inference attack models and the defenses against them. For defense, we choose differential privacy in the form of gradient perturbation during the training of the victim model as well as output perturbation at prediction time. We carry out our experiments on a wide range of datasets which allows us to better analyze the interaction between adversaries, defense mechanism and datasets. We find out that our proposed fast and easy-to-implement output perturbation technique offers good privacy protection for membership inference attacks at little impact on utility.
研究动机与目标
- 为解决机器学习模型在仅暴露预测标签时面临的成员推断隐私风险。
- 开发一种在无法访问模型置信度分数或后验概率的极端约束条件下仍能有效运行的实用成员推断技术。
- 评估差分隐私防御机制(特别是DP-SGD和事后输出扰动)在缓解此类攻击方面的有效性。
- 在多种数据集上提供成员推断攻击与防御的全面基准测试,以促进该领域的透明度与可复现性。
提出的方法
- 提出一种采样攻击,通过重复查询受害模型的标签输出来估计真实后验分布。
- 采用扰动尺度 $ p^* $ 生成合成数据点,并通过标签响应估计模型行为。
- 应用基于大数定律的统计估计技术,随着查询次数增加,平均标签响应将收敛至真实后验概率。
- 提出DP-Logits,一种事后输出扰动防御机制,通过在应用argmax前向模型logits添加噪声,实现在已训练模型上的防御。
- 使用在不同数据集上训练的影子模型,将最优扰动尺度进行迁移,从而降低攻击者的训练成本。
- 在5个多样化数据集(CIFAR10、CIFAR100、Purchase100、Texas100、Location)上采用统一评估框架,比较攻击与防御性能。
实验结果
研究问题
- RQ1当仅暴露模型标签而无法访问置信度分数或后验概率时,能否有效实施成员推断?
- RQ2随着对受害模型重复查询次数的增加,成员推断攻击的性能如何变化?
- RQ3与训练时防御机制(如DP-SGD)相比,事后输出扰动防御(如DP-Logits)在多大程度上能缓解成员推断攻击?
- RQ4攻击者能否将一个数据集上预训练的最优扰动尺度 $ p^* $ 迁移到其他数据集上,以有效攻击其他模型?
- RQ5不同数据集在多大程度上影响成员推断攻击与防御的有效性?
主要发现
- 即使仅能访问标签,所提出的采样攻击在存在置信度分数时,其AUC性能最高可达标准成员推断攻击的95%。
- 在Location数据集上,仅使用标签的采样攻击AUC达到0.89,与拥有完整后验信息的攻击性能相当。
- 将查询次数从10次增加到100次可显著提升攻击性能,但超过100次后收益递减。
- DP-SGD将攻击AUC降低至接近随机水平(如CIFAR10上为0.51),证明其具有强大的防御效果。
- DP-Logits事后防御在对模型效用影响极小的情况下,实现了与DP-SGD相当的保护效果,使其在遗留模型中具有实际应用价值。
- 将最优扰动尺度 $ p^* $ 从一个数据集迁移到另一个数据集,可实现有效攻击,且显著减少攻击者训练时间,性能损失可忽略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。