[论文解读] Adversarial Neural Network Inversion via Auxiliary Knowledge Alignment
本文提出一种基于训练好的反演神经网络的黑盒模型反演攻击,能够从模型预测结果(即使为部分或截断输出)中重建输入数据。通过利用辅助数据和基于截断的对齐技术,该方法在无需原始训练数据的情况下实现了高保真度重建,优于以往基于优化和训练的方法,在对抗性环境下表现更优。
The rise of deep learning technique has raised new privacy concerns about the training data and test data. In this work, we investigate the model inversion problem in the adversarial settings, where the adversary aims at inferring information about the target model's training data and test data from the model's prediction values. We develop a solution to train a second neural network that acts as the inverse of the target model to perform the inversion. The inversion model can be trained with black-box accesses to the target model. We propose two main techniques towards training the inversion model in the adversarial settings. First, we leverage the adversary's background knowledge to compose an auxiliary set to train the inversion model, which does not require access to the original training data. Second, we design a truncation-based technique to align the inversion model to enable effective inversion of the target model from partial predictions that the adversary obtains on victim user's data. We systematically evaluate our inversion approach in various machine learning tasks and model architectures on multiple image datasets. Our experimental results show that even with no full knowledge about the target model's training data, and with only partial prediction values, our inversion approach is still able to perform accurate inversion of the target model, and outperform previous approaches.
研究动机与目标
- 解决攻击者无法访问原始训练数据的对抗性环境下的模型反演问题。
- 仅通过目标模型的黑盒预测输出实现有效的反演。
- 克服部分或截断预测向量带来的挑战,此类问题在以往方法中严重限制了重建精度。
- 开发一种基于训练的反演方法,无需原始训练数据,而是依赖从更广泛分布中采样的辅助数据。
- 在现实约束(如社交媒体上常见的top-k预测输出)下,提升反演的鲁棒性和保真度。
提出的方法
- 使用从更通用数据分布中采样的合成辅助数据集训练反演神经网络,而非原始训练数据。
- 引入基于截断的训练技术,通过屏蔽低置信度分数,使反演模型能够处理部分预测向量。
- 在训练过程中将截断的预测向量作为反演模型的输入,使其能泛化至仅提供top-k预测的现实场景。
- 利用目标模型预测空间与辅助数据分布之间的结构相似性,提升泛化能力和重建质量。
- 通过最小化生成输入与真实输入之间差异的重建损失来优化反演模型,仅使用预测输出作为监督信号。
- 将训练好的反演模型应用于从黑盒预测(包括截断预测)中重建输入,无需梯度信息或模型架构细节。
实验结果
研究问题
- RQ1当攻击者无法访问原始训练数据时,模型反演攻击是否仍有效?
- RQ2当仅能获得部分(如top-k)预测向量时,如何保持反演性能?
- RQ3从更广泛分布中采样的辅助数据能否有效替代原始训练数据来训练反演模型?
- RQ4基于截断的训练是否能提升反演模型对部分预测的鲁棒性?
- RQ5在对抗性约束下,与基于优化和全量数据训练的方法相比,所提方法在重建质量方面表现如何?
主要发现
- 即使仅提供1/5的预测向量,所提方法的重建质量也显著优于现有基于优化的方法。
- 在辅助数据上训练的反演模型优于需要访问原始训练数据的基于训练的方法,证明了辅助数据策略的有效性。
- 基于截断的训练技术使反演模型能够泛化至部分预测,减少过拟合并提升鲁棒性。
- 在CelebA和ImageNet等图像数据集上,该方法能从top-5或top-10预测中重建出语义上合理的图像,视觉保真度高。
- 在黑盒和部分预测约束下,该方法在数据重建和训练类别推断任务中均优于MIA及其他先前基于训练的方法。
- 结果表明,看似粗糙的预测信息(如top-k分数)仍可实现高度准确的重建,凸显了现实机器学习部署中的关键隐私风险。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。