[论文解读] Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering
提出了 Activation Clustering (AC),一种在无需可信数据集的情况下检测会在深度神经网络中植入后门的有害训练数据并修复模型的方法。AC 分析最后一层激活来将污染数据与干净数据区分开,并提供自动化的恢复选项。
While machine learning (ML) models are being increasingly trusted to make decisions in different and varying areas, the safety of systems using such models has become an increasing concern. In particular, ML models are often trained on data from potentially untrustworthy sources, providing adversaries with the opportunity to manipulate them by inserting carefully crafted samples into the training set. Recent work has shown that this type of attack, called a poisoning attack, allows adversaries to insert backdoors or trojans into the model, enabling malicious behavior with simple external backdoor triggers at inference time and only a blackbox perspective of the model itself. Detecting this type of attack is challenging because the unexpected behavior occurs only when a backdoor trigger, which is known only to the adversary, is present. Model users, either direct users of training data or users of pre-trained model from a catalog, may not guarantee the safe operation of their ML-based system. In this paper, we propose a novel approach to backdoor detection and removal for neural networks. Through extensive experimental results, we demonstrate its effectiveness for neural networks classifying text and images. To the best of our knowledge, this is the first methodology capable of detecting poisonous data crafted to insert backdoors and repairing the model that does not require a verified and trusted dataset.
研究动机与目标
- 引发对神经网络中投毒与后门攻击的安全关注。
- 提出一种数据驱动的防御方法,不需要可信数据即可检测被污染的样本。
- 开发基于网络激活将被污染数据与合法数据分离的 Activation Clustering。
- 提供有效汇总聚类并修复带有后门的模型的机制。
提出的方法
- 在包含潜在污染样本的非可信数据上训练一个深度神经网络。
- 对所有训练样本提取最后一层隐藏层的激活。
- 对每个标签的激活应用降维(独立成分分析 ICA),然后使用 k-means(k=2)进行聚类。
- 使用分析方法(Exclusionary Reclassification、Relative Size、Silhouette Score)来识别哪些聚类包含污染数据。
- 可选地汇总聚类(视觉数据使用图像精灵;文本数据使用 LDA 主题)以帮助验证。
- 通过删除污染数据或将污染样本重新标注为其源类别并重新训练来修复。
实验结果
研究问题
- RQ1在没有可信数据集的情况下,Activation Clustering 是否能够可靠地区分被污染数据和合法数据?
- RQ2AC 对多模态类别、多个后门以及来自多源的投毒有多么鲁棒?
- RQ3哪些自动化标准在跨领域上最能识别被污染的聚类(ExRe、相对大小、轮廓系数)?
- RQ4AC 是否不仅能检测,还能在最小再训练下修复后门?
- RQ5聚类的可视化/文本摘要是否有助于人工验证投毒?
主要发现
- AC 在 MNIST 上实现近乎完美的污染检测(F1 = 100%、每类约 100% 准确率),在污染水平为 10%、15%、33% 时均如此。
- AC 优于原始输入聚类,后者显著落后(例如 MNIST 总体 AC 准确率 99.97% 对 Raw 聚类 58.61%)。
- 在 LISA 和 Rotten Tomatoes 文本数据上,AC 在测试场景中实现了近 100% 的准确率和 F1。
- AC 对多模态目标类别和多重污染源依然鲁棒,在不同设置下维持约 99.9–100% 的准确率与 F1。
- Exclusionary Reclassification (ExRe) 始终能识别被污染的聚类及其源类别,优于其他聚类分析度量。
- 通过对污染数据重新标注并继续训练来修复后门,收敛更快(14 轮)的效果优于从头重新训练(80 轮),在保持标准准确度的同时有效移除后门。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。