QUICK REVIEW

[論文レビュー] Ensemble of Example-Dependent Cost-Sensitive Decision Trees

Alejandro Correa Bahnsen, Djamila Aouada|arXiv (Cornell University)|May 18, 2015

Imbalanced Data Classification Techniques参考文献 36被引用数 25

ひとこと要約

本稿では、バギング、パスティング、ランダムフォレスト、またはランダムパッチを用いてランダムサブサンプル上で訓練されたコストセンシティブな意思決定木を組み合わせ、メジャリティ投票、コストセンシティブ加重投票、またはコストセンシティブスタッキングによって統合する、例依存コストセンシティブ意思決定木（ECSDT）のアンサンブルフレームワークを提案する。この手法は、5つの実世界のデータセットにおいて最先端の手法を上回り、特にランダムパッチとコストセンシティブ加重投票が最良の結果をもたらした。

ABSTRACT

Several real-world classification problems are example-dependent cost-sensitive in nature, where the costs due to misclassification vary between examples and not only within classes. However, standard classification methods do not take these costs into account, and assume a constant cost of misclassification errors. In previous works, some methods that take into account the financial costs into the training of different algorithms have been proposed, with the example-dependent cost-sensitive decision tree algorithm being the one that gives the highest savings. In this paper we propose a new framework of ensembles of example-dependent cost-sensitive decision-trees. The framework consists in creating different example-dependent cost-sensitive decision trees on random subsamples of the training set, and then combining them using three different combination approaches. Moreover, we propose two new cost-sensitive combination approaches; cost-sensitive weighted voting and cost-sensitive stacking, the latter being based on the cost-sensitive logistic regression method. Finally, using five different databases, from four real-world applications: credit card fraud detection, churn modeling, credit scoring and direct marketing, we evaluate the proposed method against state-of-the-art example-dependent cost-sensitive techniques, namely, cost-proportionate sampling, Bayes minimum risk and cost-sensitive decision trees. The results show that the proposed algorithms have better results for all databases, in the sense of higher savings.

研究の動機と目的

クラスごとの誤分類コストが一定であると仮定する従来のコストセンシティブ分類器の限界を是正する。
単一のコストセンシティブ意思決定木の高い分散を、アンサンブル学習を活用して克服する。
基本学習器の誘導段階と分類器の結合段階の両方に、例依存コストを統合するフレームワークを開発する。
財務的コスト（実世界のコスト）で測定した財務的利益が、F1スコアなどの従来の指標よりもモデル選択において優れていることを実証する。
クレジットカード不正検知、離脱予測、クレジットスコアリング、ダイレクトマーケティングを含む、多様な実世界の応用分野でフレームワークを評価する。

提案手法

バギング、パスティング、ランダムフォレスト、ランダムパッチの4つの誘導手法を用いて、訓練データのランダムサブサンプル上で複数の例依存コストセンシティブ意思決定木（ECSDT）を訓練する。
木の構築段階でコストセンシティブな分割基準を適用し、財務的成果を最適化するためのコストベースの刈り込み戦略を採用する。
基本分類器を3つの統合戦略を用いて結合する：メジャリティ投票、コストセンシティブ加重投票（加重はコストベースの性能から導出）、コストセンシティブスタッキング（メタラーナーとしてコストセンシティブなロジスティック回帰を用いる）。
コストに比例するサンプリングを適用し、各訓練例が個々の誤分類コストに応じて重み付けされるようにする。
複数のデータセットにおいて、誘導手法と結合手法の最良の組み合わせを特定することでアンサンブルを最適化する。
財務的利益を主指標として使用し、F1スコアを補助的・コストに依存しないベンチマークとして評価する。

実験結果

リサーチクエスチョン

RQ1アンサンブル手法は、単一木モデルと比較して、例依存コストセンシティブ分類において財務的利益を向上させることができるか？
RQ2バギング、パスティング、ランダムフォレスト、ランダムパッチのうち、どの誘導手法が例依存コストの文脈で最も効果的な基本分類器を生成するか？
RQ3メジャリティ投票、コストセンシティブ加重投票、コストセンシティブスタッキングのうち、どの結合戦略がアンサンブル予測において最高の財務的利益をもたらすか？
RQ4F1スコア順位と財務的利益順位の相関関係は、実世界のデータセット全体でどの程度か？
RQ5誤分類コストが変動するビジネスクリティカルな応用分野において、F1スコアなどの従来のコストに依存しない指標が、モデル選択をどの程度誤導するか？

主な発見

提案されたアンサンブルフレームワークは、5つの実世界のデータセットすべてにおいて、コストに比例するサンプリング、ベイズ最小リスク、標準的なコストセンシティブ意思決定木といった最先端の例依存コストセンシティブ手法を上回り、財務的利益の観点で優れた結果を示した。
ランダムパッチ誘導手法が最も高い性能を達成した。これは、その低い複雑さと、多様な特徴およびサンプルサブセットの効果的利用によるものと推定される。
コストセンシティブ加重投票が最良の統合戦略と判明し、メジャリティ投票およびコストセンシティブスタッキングを上回った。
F1スコア順位と財務的利益順位の相関係数は65.10%にとどまり、従来の指標がコストセンシティブな文脈においてモデル選択を誤導する可能性があることを示している。
財務的利益に基づく最良のアルゴリズムが常にF1スコアが最も高いものとは限らず、ビジネス指向の指標が実世界の導入において不可欠であることを確認した。
4つの誘導手法 × 3つの結合手法の合計12の異なる設定において、誘導手法と結合手法の選択が財務的成果に顕著な影響を与えることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。