Skip to main content
QUICK REVIEW

[論文レビュー] Deep Learning vs. Gradient Boosting: Benchmarking state-of-the-art machine learning algorithms for credit scoring

Marc Schmitt|arXiv (Cornell University)|May 21, 2022
Financial Distress and Bankruptcy Prediction被引用数 21
ひとこと要約

勾配ブースティング機械(GBM)は一般に複数のデータセットで credit scoring において deep learning(DL)より優れており、トレーニング時間も速い; DL は普遍的に劣るわけではないが、構造化信用スコアリングタスクには通常 GBM が好まれる選択である。

ABSTRACT

Artificial intelligence (AI) and machine learning (ML) have become vital to remain competitive for financial services companies around the globe. The two models currently competing for the pole position in credit risk management are deep learning (DL) and gradient boosting machines (GBM). This paper benchmarked those two algorithms in the context of credit scoring using three distinct datasets with different features to account for the reality that model choice/power is often dependent on the underlying characteristics of the dataset. The experiment has shown that GBM tends to be more powerful than DL and has also the advantage of speed due to lower computational requirements. This makes GBM the winner and choice for credit scoring. However, it was also shown that the outperformance of GBM is not always guaranteed and ultimately the concrete problem scenario or dataset will determine the final model choice. Overall, based on this study both algorithms can be considered state-of-the-art for binary classification tasks on structured datasets, while GBM should be the go-to solution for most problem scenarios due to easier use, significantly faster training time, and superior accuracy.

研究の動機と目的

  • 業界環境でのDLとGBMの信用リスクスコアリングの比較を動機づける。
  • 信用スコアリングにおけるデータセット特性とモデル選択の相互作用を評価する。
  • 構造化データの二値分類に関する最先端モデルについて実務家を導く証拠を提供する。

提案手法

  • 信用スコアリングタスクで二つの最先端アルゴリズム(DLとGBM)をベンチマークする。
  • 特徴特性が異なる三つの異なるデータセットを用い、モデルのロバスト性を検証する。
  • 予測精度と計算効率の観点から性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1GBMは異なる構造化データセット全体でDLを上回るか?
  • RQ2DLがGBMより有利になるデータセット条件は何か?
  • RQ3この領域におけるDLとGBMの精度とトレーニング速度のトレードオフは何か?

主な発見

  • GBMは信用スコアリングでDLよりも強力である傾向がある。
  • GBMはリソース要件が低いため計算速度の優位性がある。
  • GBMの優位性はすべての状況で保証されるわけではない。データセットの特徴が最適なモデルを決定する。
  • 両方のアルゴリズムは構造化データの二値分類における最先端モデルとみなすことができる。
  • GBMは使いやすさ、はるかに速い学習時間、優れた精度のため、ほとんどの問題シナリオでのゴー・ツー・ソリューションであるべきだ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。