[论文解读] NeuronInspect: Detecting Backdoors in Neural Networks via Output Explanations
NeuronInspect 通过分析输出解释来检测 DNNs 中的木马后门,无需后门样本或触发器还原,在鲁棒性和效率方面优于 Neural Cleanse.
Deep neural networks have achieved state-of-the-art performance on various tasks. However, lack of interpretability and transparency makes it easier for malicious attackers to inject trojan backdoor into the neural networks, which will make the model behave abnormally when a backdoor sample with a specific trigger is input. In this paper, we propose NeuronInspect, a framework to detect trojan backdoors in deep neural networks via output explanation techniques. NeuronInspect first identifies the existence of backdoor attack targets by generating the explanation heatmap of the output layer. We observe that generated heatmaps from clean and backdoored models have different characteristics. Therefore we extract features that measure the attributes of explanations from an attacked model namely: sparse, smooth and persistent. We combine these features and use outlier detection to figure out the outliers, which is the set of attack targets. We demonstrate the effectiveness and efficiency of NeuronInspect on MNIST digit recognition dataset and GTSRB traffic sign recognition dataset. We extensively evaluate NeuronInspect on different attack scenarios and prove better robustness and effectiveness over state-of-the-art trojan backdoor detection techniques Neural Cleanse by a great margin.
研究动机与目标
- 动机:外包 DNN 训练中木马后门的风险以及对非侵入式检测的需求。
- 提出一种使用输出解释热图来检测后门的方法,无需后门样本或触发器还原。
- 从解释中提取特征(稀疏、平滑、持久)以识别攻击目标。
- 将特征与离群检测结合以识别潜在的后门目标。
- 在跨数据集和触发变化的情况下评估与最先进后门检测器的鲁棒性和效率。
提出的方法
- 对所有类别的干净输入使用输出解释热图。
- 计算三个基于解释的特征:稀疏性、平滑性和持久性。
- 定义组合特征 f_combined = λ_sp * f_sparse + λ_sm * f_smooth + λ_pe * f_persistent.
- 应用基于中位数绝对偏差(MAD)的离群检测将目标类别识别为后门候选。
- 将显著性热图生成修改为一个整流的、非 softmax 风格的输出,并强调正梯度。
- 评估与 Neural Cleanse 的效率对比,并对特征贡献进行消融研究。
实验结果
研究问题
- RQ1是否可以通过干净模型与后门模型在解释热图中的差异在没有后门样本的情况下检测出后门目标?
- RQ2解释热图中的稀疏性、平滑性和持久性特征是否能可靠地指示后门目标?
- RQ3对组合解释特征的离群检测是否在触发大小、位置和模式上具有鲁棒性?
- RQ4在 MNIST 和 GTSRB 数据集上,NeuronInspect 与 Neural Cleanse 在检测准确性和计算时间方面的比较如何?
主要发现
- NeuronInspect 能在 MNIST 上成功检测到后门目标,触发大小从 1x1 到 4x4,具有高异常指数和正确的目标。
- 在 GTSRB 上,NeuronInspect 能检测到各种触发大小和位置的后门,通常获得比 Neural Cleanse 更高的异常指数和正确的目标。
- 组合特征在降低误警和提高目标识别方面优于单一特征。
- NeuronInspect 显著快于 Neural Cleanse,推断时间在评估数据集上的不到 Neural Cleanse 的 10%。
- 敏感性分析显示对触发大小、多个触发和半透明触发具有鲁棒性,而 Neural Cleanse 可能失败。
- 消融研究确认将稀疏性、平滑性和持久性特征结合可获得最佳性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。