QUICK REVIEW

[论文解读] Deep Learning in Customer Churn Prediction: Unsupervised Feature Learning on Abstract Company Independent Feature Vectors

Philip Spanoudes, Thomson Nguyen|arXiv (Cornell University)|Mar 10, 2017

Customer churn and segmentation参考文献 18被引用 38

一句话总结

本文提出了一种用于客户流失预测的深度学习流水线，该流水线对从用户事件日志中提取的抽象、与公司无关的特征向量进行无监督特征学习。通过利用带有 ReLU 激活函数、Dropout 和动量的深层前馈网络，该模型在预测准确率方面优于 Framed 现有的随机森林方法，同时消除了在多种基于订阅的业务中进行人工特征工程的需求。

ABSTRACT

As companies increase their efforts in retaining customers, being able to predict accurately ahead of time, whether a customer will churn in the foreseeable future is an extremely powerful tool for any marketing team. The paper describes in depth the application of Deep Learning in the problem of churn prediction. Using abstract feature vectors, that can generated on any subscription based company's user event logs, the paper proves that through the use of the intrinsic property of Deep Neural Networks (learning secondary features in an unsupervised manner), the complete pipeline can be applied to any subscription based company with extremely good churn predictive performance. Furthermore the research documented in the paper was performed for Framed Data (a company that sells churn prediction as a service for other companies) in conjunction with the Data Science Institute at Lancaster University, UK. This paper is the intellectual property of Framed Data.

研究动机与目标

开发一种可泛化的机器学习流水线，用于客户流失预测，适用于任何基于订阅的公司，且无需进行与公司相关的特征工程。
探究深度神经网络是否能够通过无监督方式从原始用户事件日志中学习到有意义的抽象特征，从而提升预测性能。
用深度学习架构替代 Framed Data 现有的随机森林流水线，以减少对人工特征工程的依赖，同时保持或提升预测准确率。
评估深度学习方法在不同流失率下的鲁棒性，特别是在低流失率场景下，先前方法可能表现不佳的情况。
使用 Spark 和 HDFS 实现可扩展的数据表示与深度学习流水线，以支持大规模事件数据在真实环境中的部署。

提出的方法

该方法采用从用户事件日志中提取的抽象、与公司无关的特征向量，捕捉时间与行为模式，无需领域特定的工程设计。
使用带有 ReLU 激活函数的深层前馈神经网络，通过反向传播以无监督方式学习输入数据的分层抽象表示。
应用正则化技术，包括 L1 和 L2 权重衰减，以及 Dropout（0.5 的丢弃率），以提升泛化能力并减少过拟合。
反向传播算法采用动量（0.9）以加速收敛并稳定训练动态。
流水线在基于 Spark 和 HDFS 的分布式计算架构上部署，以高效处理大规模、高维的事件数据。
模型性能通过与现有随机森林模型相同的指标和时间划分进行评估，从而实现直接比较。

实验结果

研究问题

RQ1深层前馈神经网络是否能够从原始事件日志中无须人工特征工程即可学习到有效的、抽象的用户行为表示，从而提升流失预测准确率？
RQ2与 Framed Data 现有使用的随机森林模型相比，所提出的深度学习架构在预测准确率和泛化能力方面表现如何？
RQ3当应用于流失率较低的月份时，深度学习流水线是否仍保持鲁棒性，此时类别不平衡可能影响模型性能？
RQ4现代深度学习技术（如 Dropout、ReLU 和动量）在流失预测任务中在多大程度上提升了模型稳定性与预测性能？
RQ5所提出的特征表示与深度学习流水线在不同基于订阅的业务中是否具有良好的可泛化性，且仅需极少的重新配置？

主要发现

在相同的时间划分和评估指标下，所提出的深度学习架构在预测准确率上优于现有的随机森林模型。
ReLU 激活函数、Dropout（0.5）以及反向传播中的动量显著提升了模型的泛化能力，并减少了不同训练划分下的方差。
深层网络通过多层隐藏层学习抽象的分层特征，增强了其区分流失用户与非流失用户的能力。
随着隐藏层数量的增加，模型性能持续提升，表明更深的架构更能捕捉用户数据中复杂的用户行为模式。
尽管整体表现优异，但该模型在低流失率月份表现欠佳，原因在于所采用的数据集平衡技术，表明其对类别不平衡较为敏感。
Spark 与 HDFS 的实现支持了可扩展的数据表示生成，验证了该流水线在真实大规模环境中的可部署性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。