[論文レビュー] Improving Credit Card Fraud Detection with an Optimized Explainable Boosting Machine
この論文は、Taguchiベースの前処理とハイパーパラメータ調整を用いてExplainable Boosting Machine (EBM)をクレジットカード不正検出のために最適化し、リサンプリングなしで不均衡データセット上のROC-AUCを最大0.983まで達成します。
Addressing class imbalance is a central challenge in credit card fraud detection, as it directly impacts predictive reliability in real-world financial systems. To overcome this, the study proposes an enhanced workflow based on the Explainable Boosting Machine (EBM)-a transparent, state-of-the-art implementation of the GA2M algorithm-optimized through systematic hyperparameter tuning, feature selection, and preprocessing refinement. Rather than relying on conventional sampling techniques that may introduce bias or cause information loss, the optimized EBM achieves an effective balance between accuracy and interpretability, enabling precise detection of fraudulent transactions while providing actionable insights into feature importance and interaction effects. Furthermore, the Taguchi method is employed to optimize both the sequence of data scalers and model hyperparameters, ensuring robust, reproducible, and systematically validated performance improvements. Experimental evaluation on benchmark credit card data yields an ROC-AUC of 0.983, surpassing prior EBM baselines (0.975) and outperforming Logistic Regression, Random Forest, XGBoost, and Decision Tree models. These results highlight the potential of interpretable machine learning and data-driven optimization for advancing trustworthy fraud analytics in financial systems.
研究の動機と目的
- クレジットカード不正検出におけるクラス不均衡の課題に対処しつつ、モデルの解釈性を保つ。
- リサンプリングなしでEBMの前処理とハイパーパラメータ調整パイプラインを開発する。
- EBMが不正検出性能において非解針型モデルと同等以上の性能を発揮できることを示す。
- 実務家向けの実用的洞察を提供するため、特徴量の重要度と相互作用を評価する。
提案手法
- 解釈可能性を持つGA²Mベースのガラス箱モデルであるExplainable Boosting Machine (EBM)を用い、単変量および組み合わせの相互作用をモデル化する。
- 5つのデータ変換器(正規化、標準化、べき変換、分位点変換、ロバストスカラー)を適用し、Taguchi法でその順序を最適化する。
- Taguchi直交表を用いて複数のモデル(Logistic Regression、Random Forest、Decision Tree、XGBoost、EBM)のハイパーパラメータを最適化する。
- EBMのグローバルな説明に基づいて上位特徴量を選択し、性能を比較するためにモデルを再学習する。
- ROCAUCやその他の指標を用いてEBMとLogistic Regression、Random Forest、XGBoost、Decision Treeを比較する。
実験結果
リサーチクエスチョン
- RQ1慎重に選択された前処理ステップを用いた最適化EBMは、リサンプリングなしで不均衡なクレジットカードデータ上で競争力のある不正検出性能を達成できるか。
- RQ2EBMの説明に基づく特徴選択が予測精度とモデルの単純さに与える影響はどのようなものか。
- RQ3スケーラーとハイパーパラメータのTaguchiベース最適化はグリッドサーチと比較して効率と性能にどのような差があるか。
- RQ4このデータセットにおいて不正検出に最も影響力のある特徴と相互作用はどれか。
主な発見
| Scaler | Model | Best Parameters | Precision | Recall | ROC_AUC | F1 Score |
|---|---|---|---|---|---|---|
| minmax | LR | feature_range: (-1 , 1) | 0.845 | 0.545 | 0.773 | 0.663 |
| standard | LR | with_mean: False; with_std: False | 0.792 | 0.691 | 0.845 | 0.738 |
| quantile | LR | n_quantiles: 1000; output_distribution: ’uniform’ | 0.794 | 0.736 | 0.868 | 0.764 |
| robust | LR | quantile_range: (25.0 , 75.0) | 0.825 | 0.600 | 0.800 | 0.695 |
| power | LR | method’: ’yeo-johnson’ | 0.823 | 0.591 | 0.795 | 0.688 |
| minmax | RF | feature_range: (0 , 0.5) | 0.976 | 0.727 | 0.864 | 0.833 |
| standard | RF | with_mean: False; with_std: False | 0.975 | 0.718 | 0.859 | 0.827 |
| quantile | RF | n_quantiles: 1000; output_distribution: ’normal’ | 0.975 | 0.718 | 0.859 | 0.827 |
| robust | RF | quantile_range: (25.0 , 75.0) | 0.975 | 0.718 | 0.859 | 0.827 |
| power | RF | method: ’yeo-johnson’ | 0.952 | 0.718 | 0.859 | 0.819 |
| minmax | DT | feature_range: (-1 , 1) | 0.670 | 0.682 | 0.841 | 0.676 |
| standard | DT | with_mean: True; with_std: True | 0.639 | 0.691 | 0.845 | 0.664 |
| quantile | DT | n_quantiles: 1000; output_distribution: ’normal’ | 0.672 | 0.709 | 0.854 | 0.690 |
| robust | DT | quantile_range: (25.0 , 75.0) | 0.670 | 0.682 | 0.841 | 0.676 |
| power | DT | method: ’yeo-johnson’ | 0.667 | 0.673 | 0.836 | 0.670 |
| minmax | XGB | feature_range: (0 , 1) | 0.976 | 0.736 | 0.868 | 0.839 |
| standard | XGB | with_mean: True ; with_std: True | 0.976 | 0.736 | 0.868 | 0.839 |
| quantile | XGB | n_quantiles: 1500 ; output_distribution: ’normal’ | 0.976 | 0.736 | 0.868 | 0.839 |
| robust | XGB | quantile_range: (25.0 , 75.0) | 0.976 | 0.736 | 0.868 | 0.839 |
| power | XGB | method: ’yeo-johnson’ | 0.976 | 0.736 | 0.868 | 0.839 |
| minmax | EBM | feature_range’: (0 , 1) | 0.988 | 0.755 | 0.877 | 0.856 |
| standard | EBM | with_mean: True ; with_std: True | 0.988 | 0.755 | 0.877 | 0.856 |
| quantile | EBM | n_quantiles: 1000 ; output_distribution: ’normal’ | 0.976 | 0.755 | 0.877 | 0.851 |
| robust | EBM | quantile_range: (25.0 , 75.0) | 0.988 | 0.755 | 0.877 | 0.856 |
| power | EBM | method: ’yeo-johnson’ | 0.988 | 0.755 | 0.877 | 0.856 |
- EBMはトップ18特徴を用いるとROC-AUC0.983を達成し、既存のEBMベースラインおよび他モデルを上回った。
- 最適化された前処理とハイパーパラメータを用いた場合、EBMは評価指標全般でLogistic Regression、Random Forest、XGBoost、Decision Treeを上回った。
- Taguchi最適化はGridSearchCVのような網羅的手法と比較して計算コストを削減しつつ、優れたまたは競合的なROC-AUCスコアを実現した。
- ほとんどの特徴量は多重共線性が低~中程度であったが、Amountは高いVIFを示し、予測性能にとって特に因果的であると特定された。
- DoWhy因果分析はAmountが複数の特徴と強い因果関係を持つことを示し、Amountを除去するとモデルの精度が低下した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。