QUICK REVIEW

[论文解读] Adversarial Neuron Pruning Purifies Backdoored Deep Models

Dongxian Wu, Yisen Wang|arXiv (Cornell University)|Oct 27, 2021

Adversarial Robustness in Machine Learning参考文献 50被引用 27

一句话总结

本文提出对抗性神经元裁剪（ANP），一种数据高效的防御方法，通过裁剪对对抗性神经元扰动敏感的神经元来移除DNN中的后门，且仅使用少量干净数据且不需要后门触发器。

ABSTRACT

As deep neural networks (DNNs) are growing larger, their requirements for computational resources become huge, which makes outsourcing training more popular. Training in a third-party platform, however, may introduce potential risks that a malicious trainer will return backdoored DNNs, which behave normally on clean samples but output targeted misclassifications whenever a trigger appears at the test time. Without any knowledge of the trigger, it is difficult to distinguish or recover benign DNNs from backdoored ones. In this paper, we first identify an unexpected sensitivity of backdoored DNNs, that is, they are much easier to collapse and tend to predict the target label on clean samples when their neurons are adversarially perturbed. Based on these observations, we propose a novel model repairing method, termed Adversarial Neuron Pruning (ANP), which prunes some sensitive neurons to purify the injected backdoor. Experiments show, even with only an extremely small amount of clean data (e.g., 1%), ANP effectively removes the injected backdoor without causing obvious performance degradation.

研究动机与目标

在带后门的DNN中识别一种漏洞，即对神经元的对抗扰动能揭示后门行为，即使没有触发器。
提出 Adversarial Neuron Pruning (ANP) 在不需要触发知识或广泛微调的情况下裁剪敏感神经元并净化模型。
证明 ANP 在非常少量的干净数据（低至1%）下实现强有力的后门消除。
将 ANP 与现有修复方法进行比较，确立其在多种后门攻击下的数据效率和鲁棒性。

提出的方法

将对神经元逐个的扰动形式化，使权重和偏置乘以小因子，以创建对抗性神经元扰动。
表明带后门的模型在神经元扰动下的误分类比良性模型更易发生。
定义一个对所有神经元的裁剪掩码，并通过对离散裁剪问题的连续松弛来进行优化。
使用投影梯度下降在兼顾干净数据准确性和对抗性神经元扰动鲁棒性的目标上求解联合目标。
通过扰动缩放参数和偏移参数来适用于批量归一化，以保留归一化效果。
输出一个裁剪后的网络 f(·; m ⊙ w, b)，在不进行微调的情况下去除后门行为。

实验结果

研究问题

RQ1是否可以通过对抗性神经扰动下对模型易受攻击的性质来区分带后门的DNN与良性模型？
RQ2通过对抗性扰动识别的神经元进行裁剪是否能够在保持干净数据准确性的同时有效消除后门？
RQ3在极少量干净数据的情况下，ANP 在不同的后门攻击下的表现如何？
RQ4实用的超参数（权衡系数 alpha、扰动预算 epsilon）及其对鲁棒性和准确性的影响是什么？

主要发现

对抗性神经元扰动会导致错误分类，且倾向将带后门的模型推向其目标标签，即使没有触发器。
ANP 可以在仅有很小的干净数据损失下显著降低后门攻击成功率（ASR）而干净准确率（ACC）略有下降。
与微调、精简裁剪及其他修复方法相比，ANP 在使用仅1%的干净数据的情况下，对多种后门攻击表现出更强的鲁棒性。
ANP 在不同架构下仍然有效，可以使用阈值或分数方法对神经元进行裁剪，通常在 ACC 与 ASR 的权衡上具有有利的结果。
超参数 alpha 和 epsilon 对较宽的范围表现出鲁棒性，实用默认值在多种攻击下提供强性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。