QUICK REVIEW

[论文解读] Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

Eirik Høyheim, Magnus Wiik Eckhoff|arXiv (Cornell University)|Mar 11, 2026

Adversarial Robustness in Machine Learning被引用 0

一句话总结

论文提出一种可解释的方法，通过主动路径和局部特征贡献来检测神经网络中的后门触发，并通过移除与触发相关的路径来消除后门，在基于神经网络的入侵检测系统中进行了验证。

ABSTRACT

Machine learning backdoors have the property that the machine learning model should work as expected on normal inputs, but when the input contains a specific $ extit{trigger}$, it behaves as the attacker desires. Detecting such triggers has been proven to be extremely difficult. In this paper, we present a novel and explainable approach to detect and eliminate such backdoor triggers based on active paths found in neural networks. We present promising experimental evidence of our approach, which involves injecting backdoors into a machine learning model used for intrusion detection.

研究动机与目标

在网络安全防御场景中，激励并解决ML模型对后门攻击的脆弱性。
提出一种利用主动路径和局部特征贡献来识别后门触发的可解释检测方法。
开发一种基于路径的消除技术，在不重新训练或重新标注的情况下移除后门行为。
在具有受控后门注入的网络入侵检测系统上演示该方法。
讨论在安全关键场景中的部署局限性及实际影响。

提出的方法

使用分段线性激活的网络前激活表示，计算每个输入的局部特征贡献。
计算前激活的线性表示，以获得每观测的贡献系数 β_i 和 φ_ij = β_ij x_ij（方程式3）。
在核PCA（使用余弦核）和HDBSCAN之后，通过对整个数据集的贡献进行聚类来检测后门，然后比较簇均值以识别异常的触发式贡献。
识别被注入后门的特征，并使用主动路径来确定输入到第一隐藏层的哪些连接涉及后门触发。
通过移除对应后门特征的主动路径上的权重来消除后门，聚焦于被后门数据使用超过阈值（T）的路径，而不重新训练。
可选地，将检测作为预过滤，以阻止类似后门的输入或对后门行为进行告警。

Figure 1 : Active paths after node elimination when using ReLU.

实验结果

研究问题

RQ1是否可以通过对主动路径和局部特征贡献的分析来识别神经网络中的后门触发？
RQ2后门是否表现为异常强或常见的主动路径，与正常数据区分开来？
RQ3是否可以通过编辑与后门相关的主动路径上的权重在不重新训练或重新标注的情况下消除后门行为？
RQ4在具有受控后门注入的入侵检测场景中，该方法的有效性如何？

主要发现

后门在局部特征贡献中形成明显簇，从而通过核PCA和HDBSCAN实现检测。
TTL相关特征（例如 TTL_max、TTL_min）在基于Netflow的入侵检测中可充当后门触发器，通过簇间的贡献差异来识别。
通过将与后门特征相关的主动路径上的权重设为零来消除后门，在对正常性能的降幅很小的前提下移除触发效应。
在实验1（一个后门特征）中，移除与触发相关的路径在保留清洁数据的大部分性能的同时，将恶意类别准确率恢复到接近正常水平。
在实验2（两个后门特征）中，该方法仍能消除后门，同时保持清洁数据的整体准确性，尽管在涉及多个特征时贡献信号不那么明显。

Figure 2 : Overall approach for detecting backdoors.

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。