[论文解读] Raising the Cost of Malicious AI-Powered Image Editing
本文提出以肉眼不可察觉的对抗性扰动对图像进行免疫,以阻止大型扩散模型的现实编辑,并讨论部署的实际政策考量。
We present an approach to mitigating the risks of malicious image editing posed by large diffusion models. The key idea is to immunize images so as to make them resistant to manipulation by these models. This immunization relies on injection of imperceptible adversarial perturbations designed to disrupt the operation of the targeted diffusion models, forcing them to generate unrealistic images. We provide two methods for crafting such perturbations, and then demonstrate their efficacy. Finally, we discuss a policy component necessary to make our approach fully effective and practical -- one that involves the organizations developing diffusion models, rather than individual users, to implement (and support) the immunization process.
研究动机与目标
- 促使提高对恶意AI驱动的图像编辑的经济门槛。
- 提出图像免疫作为对抗扩散模型编辑的防御。
- 开发两种基于扰动的攻击以干扰扩散模型操控。
- 评估免疫在图像生成与编辑任务中的有效性。
- 讨论实际部署所需的科技政策步骤。
提出的方法
- 建模扩散模型及潜在扩散模型(LDMs)及其编辑能力。
- 描述两种扰动策略:编码器攻击和扩散攻击,通过投影梯度下降(PGD)优化。
- 将编码器攻击表示为在 ‖δ‖∞ ≤ ε 下最小化 ||E(x+δ) − z_target||^2。
- 将扩散攻击表示为在 ‖δ‖∞ ≤ ε 下最小化 ||f(x+δ) − x_target||^2, 并对截断的扩散过程进行反向传播。
- 证明免疫会导致不现实的编辑并降低基于提示的图像-提示相似度(通过 CLIP 嵌入)。
- 讨论模型开发者在向前兼容性和政策 API 方面的支持免疫。
实验结果
研究问题
- RQ1暗示可通过肉眼不可察觉的扰动来免疫图像免受扩散模型编辑吗?
- RQ2编码器攻击和扩散攻击在效果和鲁棒性上是否存在差异?
- RQ3免疫对编辑的真实感和与文本提示的一致性有何影响?
- RQ4在确保模型进展的同时,部署免疫需要哪些政策机制?
主要发现
- 免疫图像的编辑与非免疫编辑在若干指标上有显著差异。
- 与编码器攻击和随机噪声基线相比,扩散攻击免疫在削弱真实编辑方面最强。
- 定量指标显示免疫图像的FID更差、与提示的相似度更低(例如扩散攻击的 FID 167.6, PR 0.87, SSIM 0.50±0.09, PSNR 13.58±2.23, VIFp 0.24±0.09, FSIM 0.69±0.06)。
- 生成的编辑与提示之间的图像-提示相似度在基于扩散的免疫后下降,表明提示效果降低。
- 随机噪声基线在干扰扩散模型编辑方面无效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。