QUICK REVIEW

[論文レビュー] Transfer Learning and Meta Classification Based Deep Churn Prediction System for Telecom Industry

Uzair Ahmed, Asifullah Khan|arXiv (Cornell University)|Jan 18, 2019

Customer churn and segmentation参考文献 22被引用数 27

ひとこと要約

本論文は、通信業界の離脱予測のための転移学習およびメタ分類に基づくディープラーニングフレームワーク、TL-DeepEを提案する。通信データを画像に変換した上で、事前学習済みのCNNを微調整し、その予測結果と元の特徴量を統合した。さらに、GP-AdaBoostアンサンブルメタ分類器を用いて、Orangeデータセットで75.4%の正解率と0.83のAUCを達成し、既存手法を上回った。

ABSTRACT

A churn prediction system guides telecom service providers to reduce revenue loss. However, the development of a churn prediction system for a telecom industry is a challenging task, mainly due to the large size of the data, high dimensional features, and imbalanced distribution of the data. In this paper, we present a solution to the inherent problems of churn prediction, using the concept of Transfer Learning (TL) and Ensemble-based Meta-Classification. The proposed method TL-DeepE is applied in two stages. The first stage employs TL by fine-tuning multiple pre-trained Deep Convolution Neural Networks (CNNs). Telecom datasets are normally in vector form, which is converted into 2D images because Deep CNNs have high learning capacity on images. In the second stage, predictions from these Deep CNNs are appended to the original feature vector and thus are used to build a final feature vector for the high-level Genetic Programming (GP) and AdaBoost based ensemble classifier. Thus, the experiments are conducted using various CNNs as base classifiers and the GP-AdaBoost as a meta-classifier. By using 10-fold cross-validation, the performance of the proposed TL-DeepE system is compared with existing techniques, for two standard telecommunication datasets; Orange and Cell2cell. Performing experiments on Orange and Cell2cell datasets, the prediction accuracy obtained was 75.4% and 68.2%, while the area under the curve was 0.83 and 0.74, respectively.

研究の動機と目的

高次元で不均衡かつ大規模な通信データセットにおける離脱予測の課題に対処すること。
事前学習済みのCNNを画像に変換したデータに対して適用することで、転移学習を活用し、予測精度を向上させること。
複数のCNNの予測結果をアンサンブルメタ分類器で統合することで、モデルの汎化性能を向上させること。
ハイブリッドなディープラーニングおよびメタラーニングフレームワークを用いて、標準的な通信データセットにおいて既存手法を上回ること。

提案手法

畳み込みニューラルネットワーク（CNN）の高い特徴量学習能力を活用するため、ベクトル化された通信データセットを2次元の画像表現に変換する。
転移学習の枠組みで、複数の事前学習済みCNN（例：VGG、ResNet）を画像に変換したデータ上で微調整する。
微調整済みCNNの最終層から深層特徴量を抽出し、それらを元の特徴量ベクトルと連結することで、強化された特徴表現を構築する。
組み合わせた特徴量セットを用いて、遺伝的プログラミング（GP）とAdaBoostを組み合わせた高レベルのメタ分類器を訓練し、最終的な予測性能を向上させる。
2つのベンチマークデータセット（OrangeおよびCell2cell）に対して10-fold交差検証を適用してシステムの評価を実施する。
多様なベース分類器（CNN）をメタ分類によって統合することで、アンサンブル学習により分散を低減し、耐性を向上させる。

実験結果

リサーチクエスチョン

RQ1事前学習済みCNNを用いた転移学習は、通信データセットにおける離脱予測性能を向上させることができるか？
RQ2深層CNNの予測結果と元の特徴量を統合することで、モデルの精度が向上するか？
RQ3複数のCNN予測結果を統合するメタ分類器は、個々のモデルや標準的なアンサンブル手法を上回る性能を示すか？
RQ4TL-DeepEフレームワークは、不均衡な通信データセットにおいて、既存のアプローチと比較してどのように性能を発揮するか？

主な発見

TL-DeepEシステムは、Orangeデータセットで75.4%の予測正解率を達成し、ベースライン手法を顕著に上回った。
Cell2cellデータセットでは、68.2%の予測正解率を達成し、異なるデータ分布に対しても高いロバストネスを示した。
受検者操作特性曲線（AUC）は、Orangeデータセットで0.83、Cell2cellデータセットで0.74に達し、優れた識別性能を示した。
画像に変換したデータに対して微調整済みCNNを用いた転移学習により、特徴表現の質が向上し、モデルの汎化性能が向上した。
アンサンブルメタ分類器（GP-AdaBoost）は、複数のベースCNNの予測結果を効果的に統合し、全体のロバストネスと正解率を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。