[论文解读] Defending Neural Backdoors via Generative Distribution Modeling
本文提出 MESA,一种最大熵阶梯近似器,用于对未知的有效后门触发分布进行建模,并利用它对神经网络后门进行鲁棒防御。
Neural backdoor attack is emerging as a severe security threat to deep learning, while the capability of existing defense methods is limited, especially for complex backdoor triggers. In the work, we explore the space formed by the pixel values of all possible backdoor triggers. An original trigger used by an attacker to build the backdoored model represents only a point in the space. It then will be generalized into a distribution of valid triggers, all of which can influence the backdoored model. Thus, previous methods that model only one point of the trigger distribution is not sufficient. Getting the entire trigger distribution, e.g., via generative modeling, is a key to effective defense. However, existing generative modeling techniques for image generation are not applicable to the backdoor scenario as the trigger distribution is completely unknown. In this work, we propose max-entropy staircase approximator (MESA), an algorithm for high-dimensional sampling-free generative modeling and use it to recover the trigger distribution. We also develop a defense technique to remove the triggers from the backdoored model. Our experiments on Cifar10/100 dataset demonstrate the effectiveness of MESA in modeling the trigger distribution and the robustness of the proposed defense method.
研究动机与目标
- 激发并形式化这样的问题:后门触发在像素空间形成连续分布,而非单一点。
- 提出一种无抽样生成建模方法(MESA)在无需直接抽样的情况下恢复有效触发分布。
- 开发一个防御流程,利用恢复的触发分布进行再训练并移除后门。
- 在 CIFAR-10/100 的多种触发类型上展示该方法的鲁棒性和有效性。
提出的方法
- 引入最大熵阶梯近似器(MESA),通过对 N 个子模型进行集成来近似未知的触发分布。
- 将问题公式化为无抽样生成,其中对触发分布 f 的未知分布通过一个上界密度和一个替代基于 ASR 的测试函数 F 来学习。
- 使用通过互信息神经估计器(MINE)进行的熵最大化,在阶梯阈值 beta_i 下训练子模型 G_theta_i。
- 使用来自熵的权重 gamma_i 对子模型进行集成,以近似目标分布 F 并重建触发分布 f。
- 提供用于实现 MESA 以建模有效触发器的算法 2,以及用于 MESA 集成机制的算法 1。
- 定义三步防御:检测被攻击的类别、使用从建模分布中抽取的触发器进行再培训、评估/调整 beta_i 以实现最佳防御。
实验结果
研究问题
- RQ1后门触发分布是否可以在像素空间中有效建模为一个分布,而非单一触发点?
- RQ2最大熵阶梯近似器(MESA)是否能够在不对其抽样的情况下恢复有效触发分布?
- RQ3基于恢复触发分布的防御是否在多样化触发下相较单一反向触发基线能稳健地降低 ASR?
- RQ4超参数 alpha 和 beta_i 如何影响建模分布的质量和防御性能?
- RQ5所提出的基于分布的防御是否在不同的 CIFAR 数据集和目标类别上都有效?
主要发现
- MESA 能够对 CIFAR-10/100 上的各种 3x3 和彩色触发器建模有效触发分布。
- 基于建模触发分布的防御将原始触发的 ASR 从 92.3%–99.8% 降低到 1.2%–5.9%。
- 使用单个反转触发进行的基线防御显示出更高的方差和较差的最坏-case ASR(在某些运行中高达 51%)。
- MESA 实现的目标类别检测可靠地区分被攻击和未被攻击的类别(真正目标类别的 ASR 高,其他类别低)。
- beta_i=0.9 的集成达到最佳防御性能,防御后 ASR 平均约为 3.4%(最坏-case 5.9%)。
- 在 CIFAR-10/100 上,防御对黑白触发器和随机颜色触发器都表现出鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。