Skip to main content
QUICK REVIEW

[论文解读] LOGAN: Evaluating Privacy Leakage of Generative Models Using Generative Adversarial Networks.

Jamie Hayes, Luca Melis|arXiv (Cornell University)|May 22, 2017
Generative Adversarial Networks and Image Synthesis被引用 64
一句话总结

本文提出了 LOGAN,一种基于生成对抗网络(GANs)的成员推理攻击,用于检测某个数据点是否属于生成模型的训练集。通过利用判别器检测统计差异的能力,该方法在人脸、物体和医学图像等多种数据集上实现了有效的成员推理,揭示了当前先进生成模型中显著的隐私泄露问题。

ABSTRACT

Generative models estimate the underlying distribution of a dataset to generate realistic samples according to that distribution. In this paper, we present the first membership inference attacks against generative models: given a data point, the adversary determines whether or not it was used to train the model. Our attacks leverage Generative Adversarial Networks (GANs), which combine a discriminative and a generative model, to detect overfitting and recognize inputs that were part of training datasets, using the discriminator's capacity to learn statistical differences in distributions. We present attacks based on both white-box and black-box access to the target model, against several state-of-the-art generative models, over datasets of complex representations of faces (LFW), objects (CIFAR-10), and medical images (Diabetic Retinopathy). We also discuss the sensitivity of the attacks to different training parameters, and their robustness against mitigation strategies, finding that defenses are either ineffective or lead to significantly worse performances of the generative models in terms of training stability and/or sample quality.

研究动机与目标

  • 探究成员推理攻击是否可应用于已知会记忆训练数据的生成模型。
  • 开发一种新颖的攻击框架,利用 GAN 检测过拟合现象,并基于分布差异识别训练数据点。
  • 在多种数据模态下,评估该攻击在白盒和黑盒访问场景下的有效性。
  • 分析该攻击对训练超参数的敏感性,并评估现有防御措施的鲁棒性。
  • 评估部署防御措施时,隐私保护与模型性能之间的权衡。

提出的方法

  • 攻击框架采用 GAN 设置,其中判别器被训练以区分真实训练数据与目标生成模型生成的样本。
  • 判别器学习检测训练数据与生成样本之间的细微统计差异,表明对训练样本的过拟合。
  • 在白盒访问下,攻击利用目标模型的内部表示,通过真实数据与生成数据训练判别器。
  • 在黑盒访问下,攻击通过查询目标模型生成样本,并以零样本方式使用这些样本训练判别器。
  • 该攻击在多个生成模型(包括 GAN 和 VAE)上进行评估,涵盖 LFW、CIFAR-10 和糖尿病视网膜病变数据集。
  • 通过分析判别器对给定输入分类为真实(训练)或生成样本时的置信度,衡量成员推理的成功率。

实验结果

研究问题

  • RQ1能否通过基于 GAN 的检测机制,有效应用于生成模型的成员推理攻击?
  • RQ2该攻击在不同数据类型和模型架构下,于白盒与黑盒访问设置下的表现如何?
  • RQ3该攻击对学习率和批量大小等训练超参数变化的敏感性如何?
  • RQ4现有针对成员推理的防御机制在应用于生成模型时是否有效?
  • RQ5部署防御措施时,隐私保护与模型性能之间的权衡如何?

主要发现

  • 所提出的 LOGAN 攻击在多个数据集上实现了超过 90% 的成员推理准确率,表明当前先进生成模型存在显著的隐私泄露问题。
  • 该攻击在黑盒访问下依然有效,表明即使仅有限的模型查询访问,也能揭示训练成员身份。
  • 诸如对抗训练和梯度正则化等防御措施,要么无法防止成员推理,要么严重降低模型在样本质量和训练稳定性方面的性能。
  • 该攻击对模型架构和训练超参数敏感,过拟合程度越高,攻击成功率也越高。
  • 结果表明,生成模型中的记忆化现象不仅限于简单数据,还延伸至医学图像和人脸数据等复杂表示。
  • 研究揭示,即使生成模型设计用于高保真度生成,其仍易受成员推理攻击影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。