QUICK REVIEW

[论文解读] Towards the Infeasibility of Membership Inference on Deep Models

Shahbaz Rezaei, Xin Liu|arXiv (Cornell University)|May 27, 2020

Adversarial Robustness in Machine Learning参考文献 11被引用 4

一句话总结

本文通过证明当前的成员推理（MI）攻击仅达到中等准确率，主要针对的是被错误分类的训练样本——这一小部分且不可靠的数据子集，从而挑战了深度学习模型易受成员推理攻击的普遍认知。作者表明，深度模型在训练样本与非训练样本之间的输出表现基本无法区分，且更深或过拟合的模型并不一定更易受攻击，从而动摇了关于记忆化与模型脆弱性之间关系的常见假设。

ABSTRACT

Recent studies propose membership inference (MI) attacks on deep models. Despite the moderate accuracy of such MI attacks, we show that the way the attack accuracy is reported is often misleading and a simple blind attack which is highly unreliable and inefficient in reality can often represent similar accuracy. We show that the current MI attack models can only identify the membership of misclassified samples with mediocre accuracy at best, which only constitute a very small portion of training samples. We analyze several new features that have not been explored for membership inference before, including distance to the decision boundary and gradient norms, and conclude that deep models' responses are mostly indistinguishable among train and non-train samples. Moreover, in contrast with general intuition that deeper models have a capacity to memorize training samples, and, hence, they are more vulnerable to membership inference, we find no evidence to support that and in some cases deeper models are often harder to launch membership inference attack on. Furthermore, despite the common belief, we show that overfitting does not necessarily lead to higher degree of membership leakage. We conduct experiments on MNIST, CIFAR-10, CIFAR-100, and ImageNet, using various model architecture, including LeNet, ResNet, DenseNet, InceptionV3, and Xception. Source code: this https URL}{\color{blue} {this https URL}.

研究动机与目标

挑战当前普遍认为深度模型因报告的准确率而高度易受成员推理攻击影响的观点。
调查相较于直觉，更深或过拟合的模型是否更易遭受成员信息泄露。
评估新型特征（如到决策边界的距离和梯度范数）在成员推理中的有效性。
评估当前MI攻击的评估指标是否因依赖于不可靠的小样本子集而具有误导性。

提出的方法

提出一种盲成员推理攻击，通过随机猜测成员身份，作为评估现有MI模型真实性能的基线。
引入新的成员推理特征，包括到决策边界的L2距离和梯度范数大小，以评估模型的可区分性。
在多个数据集（MNIST、CIFAR-10、CIFAR-100、ImageNet）和模型架构（LeNet、ResNet、DenseNet、InceptionV3、Xception）上采用全面的实验设置。
将错误分类样本与正确分类样本的模型行为分别分析，以隔离成员信息泄露的真实范围。
在不同模型深度和过拟合程度下比较攻击性能，以评估其对成员推理可行性的影响。
使用统计分析比较MI攻击准确率与盲基线，证明在真实世界数据上，报告的准确率往往与随机猜测无显著差异。

实验结果

研究问题

RQ1当前的成员推理攻击在真实训练数据上（除错误分类样本外）实际成功的程度如何？
RQ2如普遍假设，更深或过拟合的模型是否表现出更高的成员信息泄露？
RQ3诸如到决策边界的距离或梯度范数等新型特征能否提升成员推理性能？
RQ4与简单盲基线相比，报告的攻击准确率有多可靠？
RQ5在实践中，深度模型对训练样本与非训练样本的响应是否本质上可区分？

主要发现

成员推理攻击仅达到中等准确率，主要原因在于其主要针对的是构成训练数据极小部分的错误分类样本。
所提出的盲攻击（即随机猜测成员身份）的准确率通常与最先进MI模型相当，表明报告的准确率具有误导性且不具备鲁棒性。
深度模型在训练样本与非训练样本之间的输出表现基本无法区分，尤其在正确分类输入上，表明成员信息泄露程度有限。
没有一致证据表明更深的模型更容易受到成员推理攻击；在某些情况下，它们反而更难被攻击。
过拟合并不必然导致更高的成员信息泄露，这与‘记忆化增强攻击成功率’的常见假设相矛盾。
距离决策边界和梯度范数等特征并未显著提升成员推理性能，进一步表明模型响应无法被可靠地区分。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。