Skip to main content
QUICK REVIEW

[论文解读] Membership Inference Attacks Against Text-to-image Generation Models

Yixin Wu, Yu Ning|arXiv (Cornell University)|Oct 3, 2022
Privacy-Preserving Technologies in Data被引用 20
一句话总结

本论文分析文本到图像生成模型中的成员身份推断,并提出四种攻击,能够推断图像是否在模型的训练数据中,具有语义层面的方法可实现高精确度。

ABSTRACT

Text-to-image generation models have recently attracted unprecedented attention as they unlatch imaginative applications in all areas of life. However, developing such models requires huge amounts of data that might contain privacy-sensitive information, e.g., face identity. While privacy risks have been extensively demonstrated in the image classification and GAN generation domains, privacy risks in the text-to-image generation domain are largely unexplored. In this paper, we perform the first privacy analysis of text-to-image generation models through the lens of membership inference. Specifically, we propose three key intuitions about membership information and design four attack methodologies accordingly. We conduct comprehensive evaluations on two mainstream text-to-image generation models including sequence-to-sequence modeling and diffusion-based modeling. The empirical results show that all of the proposed attacks can achieve significant performance, in some cases even close to an accuracy of 1, and thus the corresponding risk is much more severe than that shown by existing membership inference attacks. We further conduct an extensive ablation study to analyze the factors that may affect the attack performance, which can guide developers and researchers to be alert to vulnerabilities in text-to-image generation models. All these findings indicate that our proposed attacks pose a realistic privacy threat to the text-to-image generation models.

研究动机与目标

  • 由于包含敏感信息的大型训练数据集带来的隐私风险,推动对文本到图像生成的隐私研究。
  • 为仅使用输出图像建立现实的黑盒威胁模型来进行成员推断。
  • 设计四种基于关于成员信息的三种直觉的攻击方法。
  • 在扩散基模型(LDM)和序列到序列模型(DALL-E mini)上,在多数据集上评估攻击。
  • 提供消融研究以识别影响攻击有效性的因素。

提出的方法

  • 将问题建模为一个二元成员资格分类器,使用一个由少量成员子集和局部非成员构建的辅助数据集。
  • 攻击 I:像素级和语义级质量差异(I-P、I-S)。
  • 攻击 II:像素级和语义级重建误差(II-P、II-S)。
  • 攻击 III:语义级对字幕的忠实反映(III)。
  • 攻击 IV:综合三种直觉,使用语义级特征;将嵌入拼接作为攻击分类器的输入。
  • 使用 BLIP/CLIP 基于的标题和嵌入;训练攻击模型(像素用 CNN,语义用三层 MLP)并采用交叉熵损失;通过准确率进行评估。

实验结果

研究问题

  • RQ1黑盒攻击者是否仅利用生成的图像便可推断查询图像是否属于目标文本到图像模型的成员?
  • RQ2在文本到图像模型中,哪种模态(像素 vs 语义)最适合进行成员推断?
  • RQ3扩散式与序列到序列文本到图像模型在成员推断方面的敏感度有何不同?
  • RQ4哪些因素(辅助数据规模、去噪步骤、字幕/嵌入工具等)会影响攻击成功率?
  • RQ5在资源受限的设置中是否存在对这类成员泄露的防御策略?

主要发现

Member DatasetFID ScoreNon-member datasetFID Score
Laion-Face (30K)9.912MSCOCO-Face (30K)19.308
Laion-Face (26K)9.959VG-Face (26K)20.314
  • 所有四种提出的攻击都在准确率方面显著高于随机(在某些情况下接近100%)。
  • 语义级攻击在各模型和数据集上始终优于像素级攻击。
  • 攻击 IV(综合所有直觉)和攻击 II-S 在大多数设置中表现最好,往往接近几乎完美的准确性。
  • 在同模态比较下,语义嵌入产生的信号强于跨模态的信号。
  • 在图像可用之前增加去噪步骤对攻击性能的提升有限(例如大约 20 步时)
  • 即使辅助数据只有 5%,攻击效果仍然有效;随着辅助数据减少,性能仅略有下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。