Skip to main content
QUICK REVIEW

[論文レビュー] Improving Credit Card Fraud Detection with an Optimized Explainable Boosting Machine

Fazel Reza, Arash Bakhtiary|arXiv (Cornell University)|Feb 6, 2026
Imbalanced Data Classification Techniques被引用数 0
ひとこと要約

この論文は、Taguchiベースの前処理とハイパーパラメータ調整を用いてExplainable Boosting Machine (EBM)をクレジットカード不正検出のために最適化し、リサンプリングなしで不均衡データセット上のROC-AUCを最大0.983まで達成します。

ABSTRACT

Addressing class imbalance is a central challenge in credit card fraud detection, as it directly impacts predictive reliability in real-world financial systems. To overcome this, the study proposes an enhanced workflow based on the Explainable Boosting Machine (EBM)-a transparent, state-of-the-art implementation of the GA2M algorithm-optimized through systematic hyperparameter tuning, feature selection, and preprocessing refinement. Rather than relying on conventional sampling techniques that may introduce bias or cause information loss, the optimized EBM achieves an effective balance between accuracy and interpretability, enabling precise detection of fraudulent transactions while providing actionable insights into feature importance and interaction effects. Furthermore, the Taguchi method is employed to optimize both the sequence of data scalers and model hyperparameters, ensuring robust, reproducible, and systematically validated performance improvements. Experimental evaluation on benchmark credit card data yields an ROC-AUC of 0.983, surpassing prior EBM baselines (0.975) and outperforming Logistic Regression, Random Forest, XGBoost, and Decision Tree models. These results highlight the potential of interpretable machine learning and data-driven optimization for advancing trustworthy fraud analytics in financial systems.

研究の動機と目的

  • クレジットカード不正検出におけるクラス不均衡の課題に対処しつつ、モデルの解釈性を保つ。
  • リサンプリングなしでEBMの前処理とハイパーパラメータ調整パイプラインを開発する。
  • EBMが不正検出性能において非解針型モデルと同等以上の性能を発揮できることを示す。
  • 実務家向けの実用的洞察を提供するため、特徴量の重要度と相互作用を評価する。

提案手法

  • 解釈可能性を持つGA²Mベースのガラス箱モデルであるExplainable Boosting Machine (EBM)を用い、単変量および組み合わせの相互作用をモデル化する。
  • 5つのデータ変換器(正規化、標準化、べき変換、分位点変換、ロバストスカラー)を適用し、Taguchi法でその順序を最適化する。
  • Taguchi直交表を用いて複数のモデル(Logistic Regression、Random Forest、Decision Tree、XGBoost、EBM)のハイパーパラメータを最適化する。
  • EBMのグローバルな説明に基づいて上位特徴量を選択し、性能を比較するためにモデルを再学習する。
  • ROCAUCやその他の指標を用いてEBMとLogistic Regression、Random Forest、XGBoost、Decision Treeを比較する。

実験結果

リサーチクエスチョン

  • RQ1慎重に選択された前処理ステップを用いた最適化EBMは、リサンプリングなしで不均衡なクレジットカードデータ上で競争力のある不正検出性能を達成できるか。
  • RQ2EBMの説明に基づく特徴選択が予測精度とモデルの単純さに与える影響はどのようなものか。
  • RQ3スケーラーとハイパーパラメータのTaguchiベース最適化はグリッドサーチと比較して効率と性能にどのような差があるか。
  • RQ4このデータセットにおいて不正検出に最も影響力のある特徴と相互作用はどれか。

主な発見

ScalerModelBest ParametersPrecisionRecallROC_AUCF1 Score
minmaxLRfeature_range: (-1 , 1)0.8450.5450.7730.663
standardLRwith_mean: False; with_std: False0.7920.6910.8450.738
quantileLRn_quantiles: 1000; output_distribution: ’uniform’0.7940.7360.8680.764
robustLRquantile_range: (25.0 , 75.0)0.8250.6000.8000.695
powerLRmethod’: ’yeo-johnson’0.8230.5910.7950.688
minmaxRFfeature_range: (0 , 0.5)0.9760.7270.8640.833
standardRFwith_mean: False; with_std: False0.9750.7180.8590.827
quantileRFn_quantiles: 1000; output_distribution: ’normal’0.9750.7180.8590.827
robustRFquantile_range: (25.0 , 75.0)0.9750.7180.8590.827
powerRFmethod: ’yeo-johnson’0.9520.7180.8590.819
minmaxDTfeature_range: (-1 , 1)0.6700.6820.8410.676
standardDTwith_mean: True; with_std: True0.6390.6910.8450.664
quantileDTn_quantiles: 1000; output_distribution: ’normal’0.6720.7090.8540.690
robustDTquantile_range: (25.0 , 75.0)0.6700.6820.8410.676
powerDTmethod: ’yeo-johnson’0.6670.6730.8360.670
minmaxXGBfeature_range: (0 , 1)0.9760.7360.8680.839
standardXGBwith_mean: True ; with_std: True0.9760.7360.8680.839
quantileXGBn_quantiles: 1500 ; output_distribution: ’normal’0.9760.7360.8680.839
robustXGBquantile_range: (25.0 , 75.0)0.9760.7360.8680.839
powerXGBmethod: ’yeo-johnson’0.9760.7360.8680.839
minmaxEBMfeature_range’: (0 , 1)0.9880.7550.8770.856
standardEBMwith_mean: True ; with_std: True0.9880.7550.8770.856
quantileEBMn_quantiles: 1000 ; output_distribution: ’normal’0.9760.7550.8770.851
robustEBMquantile_range: (25.0 , 75.0)0.9880.7550.8770.856
powerEBMmethod: ’yeo-johnson’0.9880.7550.8770.856
  • EBMはトップ18特徴を用いるとROC-AUC0.983を達成し、既存のEBMベースラインおよび他モデルを上回った。
  • 最適化された前処理とハイパーパラメータを用いた場合、EBMは評価指標全般でLogistic Regression、Random Forest、XGBoost、Decision Treeを上回った。
  • Taguchi最適化はGridSearchCVのような網羅的手法と比較して計算コストを削減しつつ、優れたまたは競合的なROC-AUCスコアを実現した。
  • ほとんどの特徴量は多重共線性が低~中程度であったが、Amountは高いVIFを示し、予測性能にとって特に因果的であると特定された。
  • DoWhy因果分析はAmountが複数の特徴と強い因果関係を持つことを示し、Amountを除去するとモデルの精度が低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。