QUICK REVIEW

[논문 리뷰] X-MAP: eXplainable Misclassification Analysis and Profiling for Spam and Phishing Detection

Qi Zhang, Dian Chen|arXiv (Cornell University)|2026. 02. 17.

Spam and Phishing Detection인용 수 0

한 줄 요약

X-MAP은 SHAP 설명과 비음수 행렬 분해를 통합하여 신뢰하게 분류된 메시지의 주제 단위 프로필을 생성하고, Jensen–Shannon 발산을 사용하여 스팸/피싱 탐지의 잘못 분류를 탐지하고 수정합니다.

ABSTRACT

Misclassifications in spam and phishing detection are very harmful, as false negatives expose users to attacks while false positives degrade trust. Existing uncertainty-based detectors can flag potential errors, but possibly be deceived and offer limited interpretability. This paper presents X-MAP, an eXplainable Misclassification Analysis and Profilling framework that reveals topic-level semantic patterns behind model failures. X-MAP combines SHAP-based feature attributions with non-negative matrix factorization to build interpretable topic profiles for reliably classified spam/phishing and legitimate messages, and measures each message's deviation from these profiles using Jensen-Shannon divergence. Experiments on SMS and phishing datasets show that misclassified messages exhibit at least two times larger divergence than correctly classified ones. As a detector, X-MAP achieves up to 0.98 AUROC and lowers the false-rejection rate at 95% TRR to 0.089 on positive predictions. When used as a repair layer on base detectors, it recovers up to 97% of falsely rejected correct predictions with moderate leakage. These results demonstrate X-MAP's effectiveness and interpretability for improving spam and phishing detection.

연구 동기 및 목표

거짓 음성(false negatives)과 거짓 양성(false positives)이 심각한 비용을 야기하는 스팸/피싱 탐지에서 유해한 오분류를 줄이는 것을 동기로 삼습니다.
주제 수준에서 모델 실패의 의미론적 패턴을 식별하는 설명 가능한 프레임워크를 개발합니다.
신뢰할 수하게 분류된 메시지의 그룹 수준 프로필을 만들고 각 메시지가 이러한 프로필로부터 얼마나 벗어나는지 정량화합니다.
X-MAP을 독립형 탐지기로서와 기존의 불확실성 기반 탐지기를 개선하는 수리 계층으로서 모두 시연합니다.

제안 방법

각 메시지의 각 피처에 대해 SHAP 값을 계산하고 양수(스팸/피싱)와 음수(정상) 기여를 구분합니다.
조건부 평균 기여와 피처 존재를 결합한 순위 점수를 사용하여 클래스별 상위 SHAP 피처를 선택합니다.
SHAP 행렬에 비음수 행렬 분해(NMF)를 적용하여 해석 가능한 주제를 도출하고 피처를 주제에 할당합니다.
참긍정(TP)과 참부정(TN)에 대한 그룹 수준 주제 프로필을 구성하고 신뢰할 수 있는 주제 분포를 얻기 위해 정규화합니다.
각 메시지의 주제 분포를 해당하는 신뢰 가능한 그룹 프로필과 Jensen–Shannon 발산으로 비교하여 오분류 점수를 얻습니다.
선택적으로 X-MAP을 수리 계층으로 사용하여 불확실성 기반 탐지기에 의해 거부된 메시지를 재평가하고 TP/TN 프로필에 부합하는 메시지를 재허용합니다.

실험 결과

연구 질문

RQ1스팸/피싱 탐지에서의 오분류를 인간이 해석 가능한 주제 수준으로 어떻게 설명할 수 있는가?
RQ2SHAP 기반 주제 패턴은 정확히 분류된 메시지와 오분류된 메시지 사이에서 다르게 나타나는가, 그리고 오분류를 탐지하는 데 사용할 수 있는가?
RQ3주제 기반 오분류 신호가 기존의 불확실성 기반 탐지기를 보완하거나 개선할 수 있는가, 수리 계층으로도 포함하여?

주요 결과

오분류된 메시지는 신뢰 가능한 주제 프로필로부터의 Jensen–Shannon 발산이 정확히 분류된 메시지보다 현저히 크게 나타난다(종종 2배에서 10배).
X-MAP은 탐지기로서 최대 0.98 AUROC를 달성하고 95% 진짜 거부율에서의 거짓 거부율을 약 0.089로 감소시킨다, 양성 예측에서.
기본 불확실성 탐지기 위에 수리 계층으로서, X-MAP은 잘못 거부된 올바른 예측의 상당 부분을 회복시키며 중간 누출이 발생한다(예: 특정 설정에서 약 15%).
주제 수준의 대립 불확실성은 양성 예측에 대해 종종 가장 좋은 성능을 보이며, 의심 주제 간의 모호성을 포착하는 한편 스팸성 피처에 덜 편향적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.