QUICK REVIEW

[论文解读] ADBM: Adversarial diffusion bridge model for reliable adversarial purification

Xiaoli Li, Wenxuan Sun|arXiv (Cornell University)|Aug 1, 2024

Adversarial Robustness in Machine Learning被引用 1

一句话总结

本文提出 ADBM，一种新型对抗性扩散桥模型，可直接从扩散后的对抗性数据学习反向过程以恢复干净数据，克服了 DiffPure 所依赖的有缺陷假设——即扩散后的干净数据与对抗性数据分布相近。ADBM 在 CIFAR-10 上面对自适应攻击时实现了显著提升的鲁棒性，鲁棒准确率最高达 53.5%，同时在各类分类器上保持了强大的泛化能力与迁移能力，即使仅使用一步反向过程亦可实现优异性能。

ABSTRACT

Recently Diffusion-based Purification (DiffPure) has been recognized as an effective defense method against adversarial examples. However, we find DiffPure which directly employs the original pre-trained diffusion models for adversarial purification, to be suboptimal. This is due to an inherent trade-off between noise purification performance and data recovery quality. Additionally, the reliability of existing evaluations for DiffPure is questionable, as they rely on weak adaptive attacks. In this work, we propose a novel Adversarial Diffusion Bridge Model, termed ADBM. ADBM directly constructs a reverse bridge from the diffused adversarial data back to its original clean examples, enhancing the purification capabilities of the original diffusion models. Through theoretical analysis and experimental validation across various scenarios, ADBM has proven to be a superior and robust defense mechanism, offering significant promise for practical applications.

研究动机与目标

为解决 DiffPure 性能欠佳的问题，其依赖于扩散后干净数据与对抗性数据分布相近的假设，而该假设在实际中并不成立。
识别并纠正现有评估中因依赖弱自适应攻击而导致 DiffPure 鲁棒性被高估的问题。
开发一种新型防御机制，提升对抗性净化效果，且无需微调主分类器，支持即插即用部署。
建立可靠的评估协议，使用强自适应攻击对基于扩散的净化方法进行评估。
通过加速推理过程提升实用性，并实现跨不同分类器的迁移能力。

提出的方法

ADBM 构建从扩散后的对抗性数据分布到干净数据分布的直接反向过程（或称‘桥接’），无需依赖分布相似性假设。
通过使用固定噪声调度（t）和固定输入（x）生成的对抗性样本，对预训练扩散模型进行微调，确保训练过程稳定且高效。
该方法利用扩散模型的反向过程，通过学习从噪声化、扰动的数据映射回干净样本的映射关系，实现对抗性输入的去噪。
理论分析表明，ADBM 的直接反向桥接机制比 DiffPure 所依赖的扩散分布间隐式相似性更具鲁棒性。
通过一步反向过程实现加速，显著降低推理成本，同时保持高鲁棒性。
通过在特定分类器上微调 ADBM，实现迁移能力，使模型可直接应用于新模型而无需重新训练。

实验结果

研究问题

RQ1在实际中，扩散后的干净数据与对抗性数据分布相近的假设是否成立？该假设如何影响 DiffPure 的性能？
RQ2从扩散后的对抗性数据到干净数据的直接反向桥接是否能超越现有基于扩散的净化方法？
RQ3与先前方法相比，ADBM 在强而可靠的自适应攻击下表现如何？
RQ4ADBM 是否可通过加速实现推理成本降低，同时保持鲁棒性？
RQ5ADBM 是否可在无需重新训练的情况下实现跨不同分类器的迁移？

主要发现

在 CIFAR-10 上，ADBM 在 l∞、l1 和 l2 威胁模型的自适应攻击下达到 53.5% 的鲁棒准确率，显著优于 DiffPure 的平均 49.1%。
即使仅使用一步反向过程，ADBM 仍保持强大鲁棒性（平均准确率达 52.8%），展现出极高的效率与实用性。
消融实验确认，固定 t、固定 x，以及使用分类器生成噪声这三个设计选择对 ADBM 的成功至关重要。
ADBM 展现出强大的迁移能力：在 WRN-70-16 分类器上微调后，其在 WRN-28-10 和视觉Transformer模型上均实现了相近的鲁棒准确率，无需重新训练。
该方法在强自适应攻击下依然稳健，揭示了以往对 DiffPure 的评估因依赖弱攻击而过于乐观。
ADBM 将推理成本降低至标准扩散模型的约 1/10，使其适用于实时应用场景。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。