QUICK REVIEW

[論文レビュー] Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

Eirik Høyheim, Magnus Wiik Eckhoff|arXiv (Cornell University)|Mar 11, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

要約: 本論文は、アクティブパスと局所特徴寄与度を用いたニューラルネットワークのバックドア発生要因検出の説明可能なアプローチを提案し、 Trigger関連のパスを除去することでバックドアを排除する。神経ネットワークベースの侵入検知システムで実証。

ABSTRACT

Machine learning backdoors have the property that the machine learning model should work as expected on normal inputs, but when the input contains a specific $ extit{trigger}$, it behaves as the attacker desires. Detecting such triggers has been proven to be extremely difficult. In this paper, we present a novel and explainable approach to detect and eliminate such backdoor triggers based on active paths found in neural networks. We present promising experimental evidence of our approach, which involves injecting backdoors into a machine learning model used for intrusion detection.

研究の動機と目的

Cyber防衛文脈における機械学習モデルのバックドア攻撃への脆弱性を動機づけ、対処する。
アクティブパスと局所特徴寄与度を活用した説明可能な検出手法を提案し、バックドア発生要因を特定する。
Retrainingや再ラベリングなしでバックドア挙動を排除するパスベースの排除技術を開発する。
制御されたバックドア注入を伴うネットワーク侵入検知システムでアプローチを実証する。
配置における制限と実務的影響をセキュリティ重要環境で論じる。

提案手法

ネットワークの前活性化表現と分割線形活性化関数を用いて各入力の局所特徴寄与度を計算する。
前活性化の線形表現を計算して、観測ごとの寄与係数 β_i および φ_ij = β_ij x_ij を得る（式3）。
カーネルPCA（コサインカーネル）とHDBSCANを組み合わせてデータセット全体の寄与をクラスタリングし、クラスタの平均を比較して異常なトリガー様寄与を特定する。
バックドア特徴を特定し、アクティブパスを用いてどの入力-最初の隠れ層間の結合がバックドアトリガと関与しているかを決定する。
バックドア特徴に対応するアクティブパスの重みをゼロにすることでバックドアを排除し、再訓練なしでトリガー効果を低減する。
任意で、検出を事前フィルタとしてバックドア様入力をブロックする、またはバックドア様の挙動を警告する用途に用いる。

Figure 1 : Active paths after node elimination when using ReLU.

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークのバックドアトリガは、アクティブパスと局所特徴寄与度の分析を通じて識別できるか。
RQ2バックドアは通常データと区別可能な、過度に強いまたは一般的なアクティブパスとして現れるか。
RQ3再訓練や再ラベリングなしで、バックドア関連のアクティブパス上の重みを編集してバックドア挙動を排除できるか。
RQ4提案手法は、制御されたバックドア注入を伴う侵入検知設定でどれほど有効か。

主な発見

局所特徴寄与度においてバックドアは明確なクラスターを作成し、Kernel PCAとHDBSCANで検出可能である。
Netflowベースの侵入検知においてTTL_maxやTTL_minなどTTL関連特徴がバックドア発生要因となり、クラスタ間の寄与差で同定される。
バックドア特徴に対応するアクティブパスの重みをゼロにすることでトリガー効果を除去でき、通常性能への影響を最小限に抑えられる。
実験1（1つのバックドア特徴）では、トリガー関連パスの除去によりクリーンデータでの性能を大半維持し、悪意のあるクラスの正解率をほぼ通常レベルに回復。
実験2（2つのバックドア特徴）でもバックドアを排除しつつクリーンデータの総合精度を維持するが、複数特徴では寄与信号がより識別困難になる。

Figure 2 : Overall approach for detecting backdoors.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。