QUICK REVIEW

[논문 리뷰] Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

Eirik Høyheim, Magnus Wiik Eckhoff|arXiv (Cornell University)|2026. 03. 11.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

논문은 활성 경로와 로컬 특징 기여를 통해 신경망의 백도어 트리거를 설명가능하게 탐지하고, 트리거 관련 경로를 제거함으로써 백도어를 제거하며, 신경망 기반 침입 탐지 시스템에서 시연합니다.

ABSTRACT

Machine learning backdoors have the property that the machine learning model should work as expected on normal inputs, but when the input contains a specific $ extit{trigger}$, it behaves as the attacker desires. Detecting such triggers has been proven to be extremely difficult. In this paper, we present a novel and explainable approach to detect and eliminate such backdoor triggers based on active paths found in neural networks. We present promising experimental evidence of our approach, which involves injecting backdoors into a machine learning model used for intrusion detection.

연구 동기 및 목표

사이버 방어 맥락에서 ML 모델의 백도어 공격 취약점을 동기화하고 해결한다.
활성 경로와 로컬 특징 기여를 활용해 백도어 트리거를 식별하는 설명가능한 탐지 방법을 제안한다.
재학습이나 재레이블링 없이 백도어 행동을 제거하는 경로 기반 제거 기법을 개발한다.
제어된 백도어 주입이 있는 네트워크 침입 탐지 시스템에서 접근 방식을 시연한다.
보안에 결정적인 설정에서의 배치에 대한 한계점과 실용적 함의를 논의한다.

제안 방법

네트워크 사전 활성화 표현을 사용한 각 입력에 대한 로컬 특징 기여를 계산한다.
사전 활성화 선형 표현을 얻어 관찰별 기여 계수 β_i와 φ_ij = β_ij x_ij 를 얻는다(식(3)).
커널 PCA(코사인 커널)와 HDBSCAN을 사용해 데이터셋 전반의 기여를 클러스터링한 뒤, 클러스터 평균을 비교해 비정상적인 트리거 유사 기여를 식별한다.
백도어 특징을 식별하고 활성 경로를 사용해 입력에서 첫 번째 은닉층으로의 연결 중 백도어 트리거에 관여하는 경로를 판단한다.
재학습 없이 백도어 특징에 해당하는 활성 경로의 가중치를 제거해 백도어를 제거하고, 임계값(T)보다 더 많이 사용되는 경로에 초점을 맞춘다.
선택적으로 탐지를 사전 필터로 사용해 백도어 유사 입력을 차단하거나 백도어 유사 행동에 경고를 보내도록 한다.

Figure 1 : Active paths after node elimination when using ReLU.

실험 결과

연구 질문

RQ1신경망에서 활성 경로와 로컬 특징 기여 분석을 통해 백도어 트리거를 식별할 수 있는가?
RQ2백도어가 정상 데이터와 구분될 수 있도록 비정상적으로 강하거나 일반적인 활성 경로로 나타나는가?
RQ3재학습이나 재레이블링 없이 백도어 관련 활성 경로를 따라 가중치를 편집해 백도어 행동을 제거할 수 있는가?
RQ4제안된 접근 방식이 제어된 백도어 주입이 있는 침입 탐지 설정에서 얼마나 효과적인가?

주요 결과

로컬 특징 기여에서 백도어가 뚜렷한 클러스터를 형성하여 Kernel PCA와 HDBSCAN으로 탐지가 가능하다.
TTL 관련 특징들(예: TTL_max, TTL_min)은 Netflow 기반 침입 탐지에서 백도어 트리거가 될 수 있으며, 클러스터 간 기여 차이로 식별된다.
백도어 특징과 연관된 활성 경로의 가중치를 0으로 제거해 트리거 효과를 제거하면 정상 성능의 저하를 최소화하면서 백도어를 제거할 수 있다.
실험 1(하나의 백도어 특징)에서 트리거 관련 경로를 제거하면 깨끗한 데이터에서 성능의 대부분을 보존하고 악의적 클래스 정확도를 거의 정상 수준으로 회복한다.
실험 2(두 개의 백도어 특징)에서도 백도어를 없애면서 깨끗한 데이터에 대한 전체 정확도는 유지되지만 여러 특징이 포함되면 기여 신호가 덜 구별된다.

Figure 2 : Overall approach for detecting backdoors.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.