Skip to main content
QUICK REVIEW

[논문 리뷰] Transfer Learning and Meta Classification Based Deep Churn Prediction System for Telecom Industry

Uzair Ahmed, Asifullah Khan|arXiv (Cornell University)|2019. 01. 18.
Customer churn and segmentation참고 문헌 22인용 수 27
한 줄 요약

이 논문은 통신 이탈 예측을 위한 전이학습과 메타분류 기반의 딥러닝 프레임워크인 TL-DeepE를 제안한다. 이미지로 변환된 통신 데이터에 대해 사전 훈련된 CNN을 미세조정하고, 그 예측 결과를 원본 특징과 결합한 후, GP-AdaBoost 앙상블 메타분류기를 적용하여 오렌지 데이터셋에서 75.4%의 정확도와 0.83의 AUC를 달성하며 기존 방법들을 능가한다.

ABSTRACT

A churn prediction system guides telecom service providers to reduce revenue loss. However, the development of a churn prediction system for a telecom industry is a challenging task, mainly due to the large size of the data, high dimensional features, and imbalanced distribution of the data. In this paper, we present a solution to the inherent problems of churn prediction, using the concept of Transfer Learning (TL) and Ensemble-based Meta-Classification. The proposed method TL-DeepE is applied in two stages. The first stage employs TL by fine-tuning multiple pre-trained Deep Convolution Neural Networks (CNNs). Telecom datasets are normally in vector form, which is converted into 2D images because Deep CNNs have high learning capacity on images. In the second stage, predictions from these Deep CNNs are appended to the original feature vector and thus are used to build a final feature vector for the high-level Genetic Programming (GP) and AdaBoost based ensemble classifier. Thus, the experiments are conducted using various CNNs as base classifiers and the GP-AdaBoost as a meta-classifier. By using 10-fold cross-validation, the performance of the proposed TL-DeepE system is compared with existing techniques, for two standard telecommunication datasets; Orange and Cell2cell. Performing experiments on Orange and Cell2cell datasets, the prediction accuracy obtained was 75.4% and 68.2%, while the area under the curve was 0.83 and 0.74, respectively.

연구 동기 및 목표

  • 고차원적이고 불균형적이며 대규모인 통신 데이터셋에서의 이탈 예측 과제를 해결하기 위해.
  • 이미지로 변환된 데이터에 대해 사전 훈련된 CNN에서의 전이학습을 활용하여 예측 정확도를 향상시키기 위해.
  • 다양한 CNN 예측을 앙상블 메타분류기를 통해 조합하여 모델의 일반화 능력을 향상시키기 위해.
  • 하이브리드 딥러닝 및 메타학습 프레임워크를 사용하여 기존 방법들을 능가하는 성능을 달성하기 위해.

제안 방법

  • 딥 컨volution 네트워크(CNN)의 높은 특징 학습 능력을 활용하기 위해 벡터화된 통신 데이터셋을 2차원 이미지 표현으로 변환하기.
  • 전이학습 환경에서 사전 훈련된 다수의 CNN(VGG, ResNet 등)을 이미지로 변환된 데이터에 대해 미세조정하기.
  • 미세조정된 CNN의 최종 레이어에서 깊이 있는 특징을 추출하고, 이를 원본 특징 벡터와 연결하여 풍부한 특징 표현을 구성하기.
  • 유전적 프로그래밍(GP)과 AdaBoost를 사용하여 결합된 특징 세트에서 고수준의 메타분류기를 훈련시켜 최종 예측 성능을 향상시키기.
  • 10겹 교차검증을 적용하여 오렌지 및 셀2셀이라는 두 가지 벤치마크 데이터셋에서 시스템을 평가하기.
  • 다양한 기본 분류기(CNN)의 예측을 메타분류를 통해 조합함으로써 분산을 줄이고 정밀도를 향상시키기 위해 앙상블 학습 적용하기.

실험 결과

연구 질문

  • RQ1사전 훈련된 CNN을 사용한 전이학습이 통신 데이터셋에서의 이탈 예측 성능을 향상시키는가?
  • RQ2딥 CNN의 예측 결과를 원본 특징과 통합하는 것이 모델 정확도 향상에 얼마나 효과적인가?
  • RQ3다수의 CNN 예측을 조합하는 메타분류기가 개별 모델이나 표준 앙상블 방법보다 우수한가?
  • RQ4불균형한 통신 데이터셋에서 TL-DeepE 프레임워크는 기존 접근법에 비해 어떻게 성능을 내는가?

주요 결과

  • TL-DeepE 시스템은 오렌지 데이터셋에서 75.4%의 예측 정확도를 달성하여 기준 방법들을 뚜렷이 능가했다.
  • 셀2셀 데이터셋에서는 68.2%의 예측 정확도를 기록하여 다양한 데이터 분포에서도 강건함을 입증했다.
  • 오렌지 데이터셋에서 ROC 곡선 아래 면적(AUC)은 0.83, 셀2셀 데이터셋에서는 0.74를 기록하여 강력한 분류 성능를 나타냈다.
  • 이미지로 변환된 데이터에 대해 미세조정된 CNN을 사용한 전이학습이 특징 표현 향상과 모델 일반화 능력 향상에 기여했다.
  • 앙상블 메타분류기(GP-AdaBoost)가 다수의 기본 CNN 예측을 효과적으로 통합하여 전반적인 정확도와 강건성을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.