[论文解读] GAMIN: An Adversarial Approach to Black-Box Model Inversion
GAMIN 提出了一种新颖的黑盒模型反演攻击方法,利用生成对抗网络从深度神经网络中重建训练数据,且无需事先了解目标模型的架构。该方法在计算开销极低的无监督、基于查询的设置下,实现了高保真度的重建效果——在 60% 的 MNIST 标签中可识别出数字,在皮肤分类模型中可还原面部特征。
Recent works have demonstrated that machine learning models are vulnerable to model inversion attacks, which lead to the exposure of sensitive information contained in their training dataset. While some model inversion attacks have been developed in the past in the black-box attack setting, in which the adversary does not have direct access to the structure of the model, few of these have been conducted so far against complex models such as deep neural networks. In this paper, we introduce GAMIN (for Generative Adversarial Model INversion), a new black-box model inversion attack framework achieving significant results even against deep models such as convolutional neural networks at a reasonable computing cost. GAMIN is based on the continuous training of a surrogate model for the target model under attack and a generator whose objective is to generate inputs resembling those used to train the target model. The attack was validated against various neural networks used as image classifiers. In particular, when attacking models trained on the MNIST dataset, GAMIN is able to extract recognizable digits for up to 60% of labels produced by the target. Attacks against skin classification models trained on the pilot parliament dataset also demonstrated the capacity to extract recognizable features from the targets.
研究动机与目标
- 解决针对复杂模型(如深度神经网络)的有效黑盒模型反演攻击这一开放性问题。
- 开发一种无需事先了解目标模型架构或训练数据分布的方法。
- 与现有基于梯度的方法相比,降低黑盒模型反演的计算成本。
- 在多种模型架构(包括多层感知机和卷积神经网络)上评估该攻击的有效性。
- 探讨模型反演对机器学习系统中隐私泄露的影响。
提出的方法
- 攻击通过并行训练的替代模型与生成器,利用持续的查询学习方式逼近目标模型的决策边界。
- 生成器通过类似 GAN 的对抗训练过程进行训练,目标是生成使目标模型对特定标签置信度最高的输入。
- 替代模型通过向目标模型发起查询进行更新,学习模仿其输出行为,而无需了解其架构。
- 生成器与替代模型以端到端方式联合训练,其中生成器优化输入重建的保真度。
- 该方法依赖于与目标模型的基于查询的交互,因此适用于现实世界中的黑盒系统。
- 该框架与模型类型无关,无需求解方程或了解模型的内部结构。
实验结果
研究问题
- RQ1在不了解目标模型架构的前提下,黑盒模型反演攻击能否实现高保真度的训练数据重建?
- RQ2该攻击在不同模型类型(如多层感知机和卷积神经网络)上的性能表现如何?
- RQ3与现有基于梯度或方程求解的方法相比,该攻击的计算成本如何?
- RQ4该攻击在多大程度上能重建出敏感数据(如人脸或数字图像)中的可识别特征?
- RQ5架构复杂度与决策边界的抽象化程度如何影响模型反演攻击的成功率?
主要发现
- 当攻击 MNIST 数据集训练的模型时,GAMIN 在高达 60% 的情况下成功重建出可识别的数字。
- 该攻击成功从一个在试点议会数据集上训练的皮肤分类模型中提取出可辨识的面部特征。
- 与先前方法估计的 50 至 80 天相比,该攻击将计算成本显著降低,仅需约 6 小时(在多层感知机上)。
- 卷积神经网络由于决策边界的抽象化与稀释,对反演攻击表现出更强的抵抗力。
- 该方法在无监督、黑盒、与模型无关的设置下有效运行,无需对架构或数据分布做任何假设。
- 结果表明,现有用于衡量攻击成功率的标准指标可能无法可靠预测重建质量,凸显了对更精细评估标准的需求。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。