Skip to main content
QUICK REVIEW

[논문 리뷰] Improving Credit Card Fraud Detection with an Optimized Explainable Boosting Machine

Fazel Reza, Arash Bakhtiary|arXiv (Cornell University)|2026. 02. 06.
Imbalanced Data Classification Techniques인용 수 0
한 줄 요약

이 논문은 Taguchi 기반 전처리 및 하이퍼파라미터 튜닝을 사용하여 신용카드 사기 탐지를 위한 Explainable Boosting Machine (EBM)을 최적화하고, 샘플링 없이 비균형 데이터에서 ROC-AUC가 최대 0.983까지 달성한다.

ABSTRACT

Addressing class imbalance is a central challenge in credit card fraud detection, as it directly impacts predictive reliability in real-world financial systems. To overcome this, the study proposes an enhanced workflow based on the Explainable Boosting Machine (EBM)-a transparent, state-of-the-art implementation of the GA2M algorithm-optimized through systematic hyperparameter tuning, feature selection, and preprocessing refinement. Rather than relying on conventional sampling techniques that may introduce bias or cause information loss, the optimized EBM achieves an effective balance between accuracy and interpretability, enabling precise detection of fraudulent transactions while providing actionable insights into feature importance and interaction effects. Furthermore, the Taguchi method is employed to optimize both the sequence of data scalers and model hyperparameters, ensuring robust, reproducible, and systematically validated performance improvements. Experimental evaluation on benchmark credit card data yields an ROC-AUC of 0.983, surpassing prior EBM baselines (0.975) and outperforming Logistic Regression, Random Forest, XGBoost, and Decision Tree models. These results highlight the potential of interpretable machine learning and data-driven optimization for advancing trustworthy fraud analytics in financial systems.

연구 동기 및 목표

  • 신용카드 사기 탐지의 클래스 불균형 문제를 해결하면서 모델 해석 가능성을 유지한다.
  • resampling 없이 EBM을 위한 최적의 전처리 및 하이퍼파라미터 튜닝 파이프라인을 개발한다.
  • EBM이 사기 탐지 성능에서 비해 비 해석 가능한 모델과 대등하거나 우수함을 입증한다.
  • 실무자에게 실행 가능한 통찰을 제공하기 위해 특징 중요도와 상호 작용을 평가한다.

제안 방법

  • EBM, GA²M 기반의 글래스 박스 모델을 사용하여 단변량 및 쌍상호작용을 해석 가능하게 모델링한다.
  • 다섯 가지 데이터 변환기(정규화, 표준화, 파워 변환, 분위수 변환, 강건 스케일러)를 적용하고 Taguchi 방법으로 그 순서를 최적화한다.
  • Taguchi 직교 배열을 사용하여 여러 모델(Logistic Regression, Random Forest, Decision Tree, XGBoost, EBM)의 하이퍼파라미터 최적화를 수행한다.
  • EBM의 글로벌 설명을 기반으로 상위 특징을 선택하고 성능을 비교하기 위해 모델을 재학습시킨다.
  • ROC-AUC 및 다른 지표를 사용하여 EBM을 Logistic Regression, Random Forest, XGBoost, 및 Decision Tree와 비교한다.

실험 결과

연구 질문

  • RQ1적절히 선택된 전처리 단계를 사용한 최적화된 EBM이 resampling 없이 비균형 신용카드 데이터에서 경쟁력 있는 사기 탐지 성능을 달성할 수 있는가?
  • RQ2EBM의 설명에 기반한 특징 선택이 예측 정확도와 모델 단순성에 어떤 영향을 미치는가?
  • RQ3스케일러 및 하이퍼파라미터의 Taguchi 기반 최적화가 격자 탐색과 비교하여 효율성과 성능에 어떤 차이를 보이는가?
  • RQ4데이터셋에서 어떤 특징과 상호작용이 사기 탐지에 가장 영향력이 있는가?

주요 결과

ScalerModelBest ParametersPrecisionRecallROC_AUCF1 Score
minmaxLRfeature_range: (-1 , 1)0.8450.5450.7730.663
standardLRwith_mean: False; with_std: False0.7920.6910.8450.738
quantileLRn_quantiles: 1000; output_distribution: ’uniform’0.7940.7360.8680.764
robustLRquantile_range: (25.0 , 75.0)0.8250.6000.8000.695
powerLRmethod’: ’yeo-johnson’0.8230.5910.7950.688
minmaxRFfeature_range: (0 , 0.5)0.9760.7270.8640.833
standardRFwith_mean: False; with_std: False0.9750.7180.8590.827
quantileRFn_quantiles: 1000; output_distribution: ’normal’0.9750.7180.8590.827
robustRFquantile_range: (25.0 , 75.0)0.9750.7180.8590.827
powerRFmethod: ’yeo-johnson’0.9520.7180.8590.819
minmaxDTfeature_range: (-1 , 1)0.6700.6820.8410.676
standardDTwith_mean: True; with_std: True0.6390.6910.8450.664
quantileDTn_quantiles: 1000; output_distribution: ’normal’0.6720.7090.8540.690
robustDTquantile_range: (25.0 , 75.0)0.6700.6820.8410.676
powerDTmethod: ’yeo-johnson’0.6670.6730.8360.670
minmaxXGBfeature_range: (0 , 1)0.9760.7360.8680.839
standardXGBwith_mean: True ; with_std: True0.9760.7360.8680.839
quantileXGBn_quantiles: 1500 ; output_distribution: ’normal’0.9760.7360.8680.839
robustXGBquantile_range: (25.0 , 75.0)0.9760.7360.8680.839
powerXGBmethod: ’yeo-johnson’0.9760.7360.8680.839
minmaxEBMfeature_range’: (0 , 1)0.9880.7550.8770.856
standardEBMwith_mean: True ; with_std: True0.9880.7550.8770.856
quantileEBMn_quantiles: 1000 ; output_distribution: ’normal’0.9760.7550.8770.851
robustEBMquantile_range: (25.0 , 75.0)0.9880.7550.8770.856
powerEBMmethod: ’yeo-johnson’0.9880.7550.8770.856
  • EBM은 상위 18개 특징을 사용했을 때 ROC-AUC 0.983를 달성하여 이전 EBM 기준선 및 다른 모델을 능가했다.
  • EBM은 최적화된 전처리 및 하이퍼파라미터를 사용할 때 Logistic Regression, Random Forest, XGBoost, 및 Decision Tree를 능가했다.
  • Taguchi 최적화는 GridSearchCV와 같은 exhaustive 방법에 비해 계산 비용을 감소시키면서 더 우수하거나 경쟁적인 ROC-AUC 점수를 제공했다.
  • 대부분의 특징은 다중공선성이 낮거나 중간이었고; 그러나 Amount는 높은 VIF를 보였고 예측 성능에 특히 인과적이라고 확인되었다.
  • DoWhy 인과 분석에 따르면 Amount는 여러 특징과 강한 인과관계를 보였고 Amount를 제거하면 모델 정확도가 감소했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.