QUICK REVIEW

[논문 리뷰] Ensemble of Example-Dependent Cost-Sensitive Decision Trees

Alejandro Correa Bahnsen, Djamila Aouada|arXiv (Cornell University)|2015. 05. 18.

Imbalanced Data Classification Techniques참고 문헌 36인용 수 25

한 줄 요약

이 논문은 배깅, 퍼스팅, 랜덤 포레스트 또는 랜덤 패치를 사용하여 무작위 부분집합에서 훈련된 비용감수성 결정트리(예: ECSDT)를 조합하고, 다수결 투표, 비용감수성 가중 투표, 또는 비용감수성 스태킹을 통해 통합함으로써 실제 분류 과제에서 재정적 절감 효과를 높이는 예제 의존 비용감수성 결정트리(ECSDT)의 앙상블 프레임워크를 제안한다. 이 방법은 다섯 개인 실세계 데이터셋에서 최신 기술을 초월하며, 랜덤 패치와 비용감수성 가중 투표가 가장 우수한 성능을 보였다.

ABSTRACT

Several real-world classification problems are example-dependent cost-sensitive in nature, where the costs due to misclassification vary between examples and not only within classes. However, standard classification methods do not take these costs into account, and assume a constant cost of misclassification errors. In previous works, some methods that take into account the financial costs into the training of different algorithms have been proposed, with the example-dependent cost-sensitive decision tree algorithm being the one that gives the highest savings. In this paper we propose a new framework of ensembles of example-dependent cost-sensitive decision-trees. The framework consists in creating different example-dependent cost-sensitive decision trees on random subsamples of the training set, and then combining them using three different combination approaches. Moreover, we propose two new cost-sensitive combination approaches; cost-sensitive weighted voting and cost-sensitive stacking, the latter being based on the cost-sensitive logistic regression method. Finally, using five different databases, from four real-world applications: credit card fraud detection, churn modeling, credit scoring and direct marketing, we evaluate the proposed method against state-of-the-art example-dependent cost-sensitive techniques, namely, cost-proportionate sampling, Bayes minimum risk and cost-sensitive decision trees. The results show that the proposed algorithms have better results for all databases, in the sense of higher savings.

연구 동기 및 목표

기존 비용감수성 분류기들이 클래스별로 일정한 오분류 비용을 가정하는 데서 비롯되는 한계를 해결한다.
단일 비용감수성 결정트리의 높은 분산 문제를 앙상블 학습을 통해 극복한다.
기본 학습기 유도 및 분류기 조합 단계에 모두 예제 의존 비용을 통합하는 프레임워크를 개발한다.
실제 비용 기반으로 측정된 재정적 절감 효과가 기존의 F1 점수와 같은 전통적 지표보다 모델 선택에 더 우수함을 입증한다.
신용카드 사기 탐지, 이탈 예측 모델링, 신용 평가, 직접 마케팅 등 다양한 실세계 응용 분야에서 프레임워크를 평가한다.

제안 방법

배깅, 퍼스팅, 랜덤 포레스트, 랜덤 패치의 네 가지 유도 방법을 사용하여 훈련 데이터의 무작위 부분집합에서 다수의 예제 의존 비용감수성 결정트리(ECSDT)를 훈련한다.
트리 구축 과정에서 비용감수성 분할 기준을 적용하고 재정적 결과 최적화를 위해 비용 기반 프루닝 전략을 사용한다.
기본 분류기들을 세 가지 통합 전략으로 조합한다: 다수결 투표, 비용감수성 가중 투표(비용 기반 성능에서 유도된 가중치 사용), 비용감수성 스태킹(메타러너로 비용감수성 로지스틱 회귀 사용).
훈련 예제가 개별 오분류 비용에 비례하도록 비용 비례 샘플링을 적용한다.
여러 데이터셋을 대상으로 유도 방법과 통합 방법의 조합을 최적화하여 앙상블 성능을 높인다.
재정적 절감 효과를 주요 평가 지표로 사용하고, F1 점수를 보조적인 비용 무관 기준으로 평가한다.

실험 결과

연구 질문

RQ1앙상블 방법은 단일 트리 모델 대비 예제 의존 비용감수성 분류에서 재정적 절감 효과를 향상시킬 수 있는가?
RQ2배깅, 퍼스팅, 랜덤 포레스트, 랜덤 패치 중 어떤 유도 방법이 예제 의존 비용 환경에서 가장 효과적인 기본 분류기를 생성하는가?
RQ3다수결 투표, 비용감수성 가중 투표, 비용감수성 스태킹 중 어떤 통합 전략이 앙상블 예측에서 가장 높은 재정적 절감 효과를 낳는가?
RQ4실세계 데이터셋에서 F1 점수 순위와 재정적 절감 효과 순위 간의 상관관계는 어떻게 되는가?
RQ5변동하는 오분류 비용을 가진 비즈니스 핵심 응용 분야에서 기존의 비용 무관 지표인 F1 점수는 모델 선택을 얼마나 잘못 이끌 수 있는가?

주요 결과

제안된 앙상블 프레임워크는 모든 다섯 개의 실세계 데이터셋에서 비용비례 샘플링, 베이즈 최소 위험, 표준 비용감수성 결정트리 등 최신 기술보다 재정적 절감 효과에서 뚜렷한 승리를 거두었다.
랜덤 패치 유도 방법이 가장 높은 성능을 기록했으며, 이는 낮은 복잡도와 다양한 특성 및 샘플 부분집합의 효과적 활용 덕분으로 보인다.
비용감수성 가중 투표가 가장 우수한 통합 전략으로 나타났으며, 다수결 투표와 비용감수성 스태킹을 모두 능가했다.
F1 점수 순위와 재정적 절감 효과 순위 간 상관관계는 65.10%에 불과하여, 기존 지표가 비용감수성 환경에서 모델 선택을 오도할 수 있음을 시사한다.
재정적 절감 효과 기준으로 가장 뛰어난 알고리즘이 항상 F1 점수 기준으로 가장 높은 성능을 내는 것은 아니었으며, 이는 실세계 구현에 있어 비즈니스 중심 지표의 중요성을 확인한다.
12가지의 고유한 구성(4개의 유도 방법 × 3개의 통합 전략)을 통해 유도 방법과 통합 방법의 선택이 재정적 결과에 상당한 영향을 미친다는 점을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.