Skip to main content
QUICK REVIEW

[논문 리뷰] Ensemble of Example-Dependent Cost-Sensitive Decision Trees

Alejandro Correa Bahnsen, Djamila Aouada|arXiv (Cornell University)|2015. 05. 18.
Imbalanced Data Classification Techniques참고 문헌 36인용 수 25
한 줄 요약

이 논문은 배깅, 퍼스팅, 랜덤 포레스트 또는 랜덤 패치를 사용하여 무작위 부분집합에서 훈련된 비용감수성 결정트리(예: ECSDT)를 조합하고, 다수결 투표, 비용감수성 가중 투표, 또는 비용감수성 스태킹을 통해 통합함으로써 실제 분류 과제에서 재정적 절감 효과를 높이는 예제 의존 비용감수성 결정트리(ECSDT)의 앙상블 프레임워크를 제안한다. 이 방법은 다섯 개인 실세계 데이터셋에서 최신 기술을 초월하며, 랜덤 패치와 비용감수성 가중 투표가 가장 우수한 성능을 보였다.

ABSTRACT

Several real-world classification problems are example-dependent cost-sensitive in nature, where the costs due to misclassification vary between examples and not only within classes. However, standard classification methods do not take these costs into account, and assume a constant cost of misclassification errors. In previous works, some methods that take into account the financial costs into the training of different algorithms have been proposed, with the example-dependent cost-sensitive decision tree algorithm being the one that gives the highest savings. In this paper we propose a new framework of ensembles of example-dependent cost-sensitive decision-trees. The framework consists in creating different example-dependent cost-sensitive decision trees on random subsamples of the training set, and then combining them using three different combination approaches. Moreover, we propose two new cost-sensitive combination approaches; cost-sensitive weighted voting and cost-sensitive stacking, the latter being based on the cost-sensitive logistic regression method. Finally, using five different databases, from four real-world applications: credit card fraud detection, churn modeling, credit scoring and direct marketing, we evaluate the proposed method against state-of-the-art example-dependent cost-sensitive techniques, namely, cost-proportionate sampling, Bayes minimum risk and cost-sensitive decision trees. The results show that the proposed algorithms have better results for all databases, in the sense of higher savings.

연구 동기 및 목표

  • 기존 비용감수성 분류기들이 클래스별로 일정한 오분류 비용을 가정하는 데서 비롯되는 한계를 해결한다.
  • 단일 비용감수성 결정트리의 높은 분산 문제를 앙상블 학습을 통해 극복한다.
  • 기본 학습기 유도 및 분류기 조합 단계에 모두 예제 의존 비용을 통합하는 프레임워크를 개발한다.
  • 실제 비용 기반으로 측정된 재정적 절감 효과가 기존의 F1 점수와 같은 전통적 지표보다 모델 선택에 더 우수함을 입증한다.
  • 신용카드 사기 탐지, 이탈 예측 모델링, 신용 평가, 직접 마케팅 등 다양한 실세계 응용 분야에서 프레임워크를 평가한다.

제안 방법

  • 배깅, 퍼스팅, 랜덤 포레스트, 랜덤 패치의 네 가지 유도 방법을 사용하여 훈련 데이터의 무작위 부분집합에서 다수의 예제 의존 비용감수성 결정트리(ECSDT)를 훈련한다.
  • 트리 구축 과정에서 비용감수성 분할 기준을 적용하고 재정적 결과 최적화를 위해 비용 기반 프루닝 전략을 사용한다.
  • 기본 분류기들을 세 가지 통합 전략으로 조합한다: 다수결 투표, 비용감수성 가중 투표(비용 기반 성능에서 유도된 가중치 사용), 비용감수성 스태킹(메타러너로 비용감수성 로지스틱 회귀 사용).
  • 훈련 예제가 개별 오분류 비용에 비례하도록 비용 비례 샘플링을 적용한다.
  • 여러 데이터셋을 대상으로 유도 방법과 통합 방법의 조합을 최적화하여 앙상블 성능을 높인다.
  • 재정적 절감 효과를 주요 평가 지표로 사용하고, F1 점수를 보조적인 비용 무관 기준으로 평가한다.

실험 결과

연구 질문

  • RQ1앙상블 방법은 단일 트리 모델 대비 예제 의존 비용감수성 분류에서 재정적 절감 효과를 향상시킬 수 있는가?
  • RQ2배깅, 퍼스팅, 랜덤 포레스트, 랜덤 패치 중 어떤 유도 방법이 예제 의존 비용 환경에서 가장 효과적인 기본 분류기를 생성하는가?
  • RQ3다수결 투표, 비용감수성 가중 투표, 비용감수성 스태킹 중 어떤 통합 전략이 앙상블 예측에서 가장 높은 재정적 절감 효과를 낳는가?
  • RQ4실세계 데이터셋에서 F1 점수 순위와 재정적 절감 효과 순위 간의 상관관계는 어떻게 되는가?
  • RQ5변동하는 오분류 비용을 가진 비즈니스 핵심 응용 분야에서 기존의 비용 무관 지표인 F1 점수는 모델 선택을 얼마나 잘못 이끌 수 있는가?

주요 결과

  • 제안된 앙상블 프레임워크는 모든 다섯 개의 실세계 데이터셋에서 비용비례 샘플링, 베이즈 최소 위험, 표준 비용감수성 결정트리 등 최신 기술보다 재정적 절감 효과에서 뚜렷한 승리를 거두었다.
  • 랜덤 패치 유도 방법이 가장 높은 성능을 기록했으며, 이는 낮은 복잡도와 다양한 특성 및 샘플 부분집합의 효과적 활용 덕분으로 보인다.
  • 비용감수성 가중 투표가 가장 우수한 통합 전략으로 나타났으며, 다수결 투표와 비용감수성 스태킹을 모두 능가했다.
  • F1 점수 순위와 재정적 절감 효과 순위 간 상관관계는 65.10%에 불과하여, 기존 지표가 비용감수성 환경에서 모델 선택을 오도할 수 있음을 시사한다.
  • 재정적 절감 효과 기준으로 가장 뛰어난 알고리즘이 항상 F1 점수 기준으로 가장 높은 성능을 내는 것은 아니었으며, 이는 실세계 구현에 있어 비즈니스 중심 지표의 중요성을 확인한다.
  • 12가지의 고유한 구성(4개의 유도 방법 × 3개의 통합 전략)을 통해 유도 방법과 통합 방법의 선택이 재정적 결과에 상당한 영향을 미친다는 점을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.