[논문 리뷰] X-MAP: eXplainable Misclassification Analysis and Profiling for Spam and Phishing Detection
X-MAP은 SHAP 설명과 비음수 행렬 분해를 통합하여 신뢰하게 분류된 메시지의 주제 단위 프로필을 생성하고, Jensen–Shannon 발산을 사용하여 스팸/피싱 탐지의 잘못 분류를 탐지하고 수정합니다.
Misclassifications in spam and phishing detection are very harmful, as false negatives expose users to attacks while false positives degrade trust. Existing uncertainty-based detectors can flag potential errors, but possibly be deceived and offer limited interpretability. This paper presents X-MAP, an eXplainable Misclassification Analysis and Profilling framework that reveals topic-level semantic patterns behind model failures. X-MAP combines SHAP-based feature attributions with non-negative matrix factorization to build interpretable topic profiles for reliably classified spam/phishing and legitimate messages, and measures each message's deviation from these profiles using Jensen-Shannon divergence. Experiments on SMS and phishing datasets show that misclassified messages exhibit at least two times larger divergence than correctly classified ones. As a detector, X-MAP achieves up to 0.98 AUROC and lowers the false-rejection rate at 95% TRR to 0.089 on positive predictions. When used as a repair layer on base detectors, it recovers up to 97% of falsely rejected correct predictions with moderate leakage. These results demonstrate X-MAP's effectiveness and interpretability for improving spam and phishing detection.
연구 동기 및 목표
- 거짓 음성(false negatives)과 거짓 양성(false positives)이 심각한 비용을 야기하는 스팸/피싱 탐지에서 유해한 오분류를 줄이는 것을 동기로 삼습니다.
- 주제 수준에서 모델 실패의 의미론적 패턴을 식별하는 설명 가능한 프레임워크를 개발합니다.
- 신뢰할 수하게 분류된 메시지의 그룹 수준 프로필을 만들고 각 메시지가 이러한 프로필로부터 얼마나 벗어나는지 정량화합니다.
- X-MAP을 독립형 탐지기로서와 기존의 불확실성 기반 탐지기를 개선하는 수리 계층으로서 모두 시연합니다.
제안 방법
- 각 메시지의 각 피처에 대해 SHAP 값을 계산하고 양수(스팸/피싱)와 음수(정상) 기여를 구분합니다.
- 조건부 평균 기여와 피처 존재를 결합한 순위 점수를 사용하여 클래스별 상위 SHAP 피처를 선택합니다.
- SHAP 행렬에 비음수 행렬 분해(NMF)를 적용하여 해석 가능한 주제를 도출하고 피처를 주제에 할당합니다.
- 참긍정(TP)과 참부정(TN)에 대한 그룹 수준 주제 프로필을 구성하고 신뢰할 수 있는 주제 분포를 얻기 위해 정규화합니다.
- 각 메시지의 주제 분포를 해당하는 신뢰 가능한 그룹 프로필과 Jensen–Shannon 발산으로 비교하여 오분류 점수를 얻습니다.
- 선택적으로 X-MAP을 수리 계층으로 사용하여 불확실성 기반 탐지기에 의해 거부된 메시지를 재평가하고 TP/TN 프로필에 부합하는 메시지를 재허용합니다.
실험 결과
연구 질문
- RQ1스팸/피싱 탐지에서의 오분류를 인간이 해석 가능한 주제 수준으로 어떻게 설명할 수 있는가?
- RQ2SHAP 기반 주제 패턴은 정확히 분류된 메시지와 오분류된 메시지 사이에서 다르게 나타나는가, 그리고 오분류를 탐지하는 데 사용할 수 있는가?
- RQ3주제 기반 오분류 신호가 기존의 불확실성 기반 탐지기를 보완하거나 개선할 수 있는가, 수리 계층으로도 포함하여?
주요 결과
- 오분류된 메시지는 신뢰 가능한 주제 프로필로부터의 Jensen–Shannon 발산이 정확히 분류된 메시지보다 현저히 크게 나타난다(종종 2배에서 10배).
- X-MAP은 탐지기로서 최대 0.98 AUROC를 달성하고 95% 진짜 거부율에서의 거짓 거부율을 약 0.089로 감소시킨다, 양성 예측에서.
- 기본 불확실성 탐지기 위에 수리 계층으로서, X-MAP은 잘못 거부된 올바른 예측의 상당 부분을 회복시키며 중간 누출이 발생한다(예: 특정 설정에서 약 15%).
- 주제 수준의 대립 불확실성은 양성 예측에 대해 종종 가장 좋은 성능을 보이며, 의심 주제 간의 모호성을 포착하는 한편 스팸성 피처에 덜 편향적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.