[논문 리뷰] Analyzing Machine Learning Models for Credit Scoring with Explainable AI and Optimizing Investment Decisions
이 논문은 신용 점수 예측을 위해 여러 ML 모델을 비교하고, 설명가능가능성을 위해 LIME과 SHAP을 적용하며, 수익성을 극대화하고 위험을 줄이기 위한 ML 기반 투자 전략을 조사한다.
This paper examines two different yet related questions related to explainable AI (XAI) practices. Machine learning (ML) is increasingly important in financial services, such as pre-approval, credit underwriting, investments, and various front-end and back-end activities. Machine Learning can automatically detect non-linearities and interactions in training data, facilitating faster and more accurate credit decisions. However, machine learning models are opaque and hard to explain, which are critical elements needed for establishing a reliable technology. The study compares various machine learning models, including single classifiers (logistic regression, decision trees, LDA, QDA), heterogeneous ensembles (AdaBoost, Random Forest), and sequential neural networks. The results indicate that ensemble classifiers and neural networks outperform. In addition, two advanced post-hoc model agnostic explainability techniques - LIME and SHAP are utilized to assess ML-based credit scoring models using the open-access datasets offered by US-based P2P Lending Platform, Lending Club. For this study, we are also using machine learning algorithms to develop new investment models and explore portfolio strategies that can maximize profitability while minimizing risk.
연구 동기 및 목표
- 신용 심사 및 투자 의사결정과 같은 금융 ML 응용에서 설명가능한 AI의 활용을 촉진한다.
- 단순 분류기에서 앙상블 및 신경망에 이르기까지 다양한 ML 모델을 신용 점수 산정에 대해 평가한다.
- 신용 점수 모델에 대한 사후 설명가능성 방법(LIME, SHAP)을 평가한다.
- 수익성을 극대화하고 위험을 최소화하기 위해 ML 기반 투자 모델과 포트폴리오 전략을 개발한다.
- 모델 평가를 위한 오픈 액세스 Lending Club 데이터의 활용 가능성을 강조한다.
제안 방법
- 신용 점수 예측에서 단일 분류기(logistic regression, decision trees, LDA, QDA), 이질적 앙상블(AdaBoost, Random Forest), 및 순차 신경망을 비교한다.
- 모델 설명을 평가하기 위해 사후적 모델 비특이적 설명가능성 기법(LIME 및 SHAP)을 적용한다.
- 신용 점수 모델 평가를 위해 Lending Club 오픈 액세스 데이터 세트를 활용한다.
- 수익성과 위험 최소화를 목표로 한 ML 기반 투자 모델 및 포트폴리오 전략을 개발하고 테스트한다.
- 모델 성능 및 설명가능성에 대한 질적 및 양적 관찰을 보고한다.
실험 결과
연구 질문
- RQ1Lending Club 데이터에서 어떤 ML 모델이 신용 점수 평가에서 가장 높은 성능을 보이는가?
- RQ2이 설정에서 앙상블 방법과 신경망은 단일 분류기에 비해 어떤 차이를 보이는가?
- RQ3LIME과 SHAP가 신용 점수 모델을 설명하는 데 얼마나 효과적인가?
- RQ4ML 기반 투자 모델이 기본 전략에 비해 수익성을 개선하고 위험을 감소시킬 수 있는가?
주요 결과
- 앙상블 분류기와 신경망은 신용 점수에서 단일 분류기보다 우수한 성능을 보인다.
- LIME과 SHAP가 신용 점수 모델의 설명가능성을 평가하는 데 적용된다.
- 연구는 평가를 위해 Lending Club 오픈 액세스 데이터 세트를 사용한다.
- 본 연구는 또한 위험 고려와 함께 수익성을 최적화하기 위한 ML 기반 투자 모델 및 포트폴리오 전략을 개발한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.