[論文レビュー] X-MAP: eXplainable Misclassification Analysis and Profiling for Spam and Phishing Detection
X-MAP は SHAP の説明と非負値行列分解を統合し、信頼性の高い分類されたメッセージのトピックレベルプロファイルを作成し、ジェンセン–シャノン距離を用いて誤分類を検出・修復するスパム/フィッシング検出法である。
Misclassifications in spam and phishing detection are very harmful, as false negatives expose users to attacks while false positives degrade trust. Existing uncertainty-based detectors can flag potential errors, but possibly be deceived and offer limited interpretability. This paper presents X-MAP, an eXplainable Misclassification Analysis and Profilling framework that reveals topic-level semantic patterns behind model failures. X-MAP combines SHAP-based feature attributions with non-negative matrix factorization to build interpretable topic profiles for reliably classified spam/phishing and legitimate messages, and measures each message's deviation from these profiles using Jensen-Shannon divergence. Experiments on SMS and phishing datasets show that misclassified messages exhibit at least two times larger divergence than correctly classified ones. As a detector, X-MAP achieves up to 0.98 AUROC and lowers the false-rejection rate at 95% TRR to 0.089 on positive predictions. When used as a repair layer on base detectors, it recovers up to 97% of falsely rejected correct predictions with moderate leakage. These results demonstrate X-MAP's effectiveness and interpretability for improving spam and phishing detection.
研究の動機と目的
- スパム/フィッシング検出における誤検出と偽陽性のコストが重大である場面で、有害な誤分類を減らす動機付け。
- モデルの失敗の背後にある意味的パターンをトピックレベルで特定する説明可能なフレームワークを開発する。
- 信頼性の高い分類メッセージのグループレベルのプロファイルを作成し、各メッセージのこれらのプロファイルからの乖離を定量化する。
- X-MAP を独立した検出器としても、既存の不確実性ベースの検出器を改善する修復層としても機能させる。
提案手法
- 各メッセージごとに特徴量の SHAP 値を計算し、正の寄与(スパム/フィッシング)と負の寄与(正当)の寄与を分離する。
- クラスごとに、条件付き平均寄与と特徴量の有無を組み合わせたランキングスコアを用いてトップ SHAP 特徴量を選択する。
- SHAP 行列に非負値行列分解(NMF)を適用して、解釈可能なトピックを導出し、特徴量をトピックに割り当てる。
- 真陽性(TP)と真陰性(TN)のグループレベルのトピックプロファイルを構築し、信頼できるトピック分布を得るよう正規化する。
- 各メッセージのトピック分布を対応する信頼できるグループプロファイルと比較するために Jensen–Shannon 距離を測定し、誤分類スコアを得る。
- オプションとして、不確実性ベースの検出器で却下されたメッセージを再評価し、TP/TN プロファイルと一致するものを再受理することで修復層として X-MAP を使用する。
実験結果
リサーチクエスチョン
- RQ1スパム/フィッシング検出における誤分類を、人が解釈できるトピックレベルの方法でどのように説明できるか。
- RQ2SHAP ベースのトピックパターンは正しく分類されたメッセージと誤分類されたメッセージで異なり、誤分類を検出するのに利用できるか。
- RQ3トピックベースの誤分類シグナルは、既存の不確実性ベース検出器を補完・改善するか(修復層としても)。
主な発見
- 誤分類されたメッセージは、信頼できるトピックプロファイルからの Jensen–Shannon 距離が正しく分類されたものより著しく大きい(2倍〜10倍程度になることが多い)。
- X-MAP は検出器として最大 0.98 AUROC を達成し、95% 真陰性率での偽 reject 率を約 0.089 へ低減。
- ベースの不確実性検出器の上に修復層として適用した場合、X-MAP は誤 rejected の正しい予測の相当部分を回復しつつ、中程度の漏出を許容する(例えば特定の設定では約 15%)。
- トピックレベルのアレアトリック不確実性は、正の予測に対して最良の性能を示すことが多く、疑わしいトピック間の曖昧さを捉えつつ、スパム寄りの特徴に偏りすぎない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。