Skip to main content
QUICK REVIEW

[논문 리뷰] A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Yan Wang, Xuelei Sherry Ni|arXiv (Cornell University)|2019. 01. 24.
Imbalanced Data Classification Techniques참고 문헌 32인용 수 23
한 줄 요약

이 논문은 특성 선택과 베이지안 하이퍼파rameter 최적화를 통해 개선된 XGBoost 기반의 비즈니스 리스크 분류 모델을 제안한다. 특성 선택에는 계층적 클러스터링을, 하이퍼파rameter 튜닝에는 트리 기반 파르젠 추정기(TPE)를 사용하여, 정확도, AUC, 재현율, F1 점수에서 로지스틱 회귀보다 유의미하게 높은 성능을 보이며, 분산이 낮고 특성 중요도 순위를 통한 해석 가능성도 향상시킨다.

ABSTRACT

This paper aims to explore models based on the extreme gradient boosting (XGBoost) approach for business risk classification. Feature selection (FS) algorithms and hyper-parameter optimizations are simultaneously considered during model training. The five most commonly used FS methods including weight by Gini, weight by Chi-square, hierarchical variable clustering, weight by correlation, and weight by information are applied to alleviate the effect of redundant features. Two hyper-parameter optimization approaches, random search (RS) and Bayesian tree-structured Parzen Estimator (TPE), are applied in XGBoost. The effect of different FS and hyper-parameter optimization methods on the model performance are investigated by the Wilcoxon Signed Rank Test. The performance of XGBoost is compared to the traditionally utilized logistic regression (LR) model in terms of classification accuracy, area under the curve (AUC), recall, and F1 score obtained from the 10-fold cross validation. Results show that hierarchical clustering is the optimal FS method for LR while weight by Chi-square achieves the best performance in XG-Boost. Both TPE and RS optimization in XGBoost outperform LR significantly. TPE optimization shows a superiority over RS since it results in a significantly higher accuracy and a marginally higher AUC, recall and F1 score. Furthermore, XGBoost with TPE tuning shows a lower variability than the RS method. Finally, the ranking of feature importance based on XGBoost enhances the model interpretation. Therefore, XGBoost with Bayesian TPE hyper-parameter optimization serves as an operative while powerful approach for business risk modeling.

연구 동기 및 목표

  • 비즈니스 분류를 위한 강력한 XGBoost 기반 리스크 모델을 개발하기 위해.
  • 다양한 특성 선택 방법의 모델 성능에 미치는 영향을 평가하기 위해.
  • XGBoost의 하이퍼파rameter 튜닝에서 무작위 탐색과 베이지안 최적화(TPE)의 성능을 비교하기 위해.
  • 표준 분류 지표를 사용하여 XGBoost를 전통적인 로지스틱 회귀와 비교하기 위해.
  • 특성 중요도 순위를 통한 해석 가능성 향상을 위해.

제안 방법

  • Gini 중요도, 카이제곱, 계층적 클러스터링, 상관 기반, 정보 이득의 다섯 가지 특성 선택 방법을 적용하였다.
  • 무작위 탐색(RS)과 트리 기반 파르젠 추정기(TPE)를 통한 베이지안 최적화의 두 가지 하이퍼파rameter 최적화 기법을 사용하였다.
  • 모델 성능 추정의 강건성을 확보하기 위해 10겹 교차검증을 사용하여 XGBoost 모델을 학습시켰다.
  • 분류 정확도, AUC, 재현율, F1 점수를 사용하여 모델 성능을 평가하였다.
  • 성능 차이의 통계적 유의성을 평가하기 위해 윌코크슨 부호 순위 검정을 적용하였다.
  • XGBoost의 특성 중요도 기반 순위를 활용하여 모델의 해석 가능성을 향상시켰다.

실험 결과

연구 질문

  • RQ1비즈니스 리스크 모델링에서 XGBoost에 가장 적합한 특성 선택 방법은 무엇인가?
  • RQ2무작위 탐색과 베이지안 최적화(TPE)는 XGBoost 하이퍼파rameter 튜닝에서 어떻게 비교되는가?
  • RQ3최적화된 하이퍼파rameter와 특성 선택을 적용한 XGBoost는 로지스틱 회귀보다 리스크 분류에서 성능이 뛰어나지 않는가?
  • RQ4다양한 최적화 및 특성 선택 전략에 따라 모델 성능의 변동성은 어떻게 되는가?
  • RQ5XGBoost는 비즈니스 리스크 의사결정에 있어 해석 가능한 특성 중요도 순위를 제공할 수 있는가?

주요 결과

  • 로지스틱 회귀에는 계층적 클러스터링이 최적의 특성 선택 방법이었고, XGBoost에는 카이제곱 가중치가 가장 우수한 성능을 보였다.
  • XGBoost에서 TPE와 무작위 탐색 모두 로지스틱 회귀보다 모든 지표에서 유의미하게 뛰어난 성능을 보였다.
  • TPE 최적화는 무작위 탐색 대비 유의미하게 높은 정확도를 기록했고, AUC, 재현율, F1 점수는 약간 높은 성능을 보였다.
  • TPE 튜닝을 적용한 XGBoost는 무작위 탐색 대비 성능 변동성이 낮았다.
  • XGBoost에서 도출한 특성 중요도 순위는 모델의 해석 가능성을 향상시켜 실질적인 리스크 평가에 기여하였다.
  • 베이지안 TPE 하이퍼파rameter 최적화를 적용한 XGBoost 모델은 로지스틱 회귀에 비해 강력하고, 안정적이며, 해석 가능한 비즈니스 리스크 모델링의 대안이 될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.