QUICK REVIEW

[论文解读] Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space

Yegor Tkachenko|arXiv (Cornell University)|Apr 8, 2015

Customer churn and segmentation参考文献 8被引用 23

一句话总结

本文提出了一种深度强化学习框架，采用改进的RFM-I（最近性、频率、货币价值及营销互动）客户状态表征，在离散与连续动作空间中自主优化直接营销行为。通过在历史CRM数据上训练深度Q网络（DQN），模型估计客户终身价值（CLV），并推荐能最大化长期回报的动作，在KDD Cup 1998数据集上实现响应率与捐款金额超过50%的提升。

ABSTRACT

The paper outlines a framework for autonomous control of a CRM (customer relationship management) system. First, it explores how a modified version of the widely accepted Recency-Frequency-Monetary Value system of metrics can be used to define the state space of clients or donors. Second, it describes a procedure to determine the optimal direct marketing action in discrete and continuous action space for the given individual, based on his position in the state space. The procedure involves the use of model-free Q-learning to train a deep neural network that relates a client's position in the state space to rewards associated with possible marketing actions. The estimated value function over the client state space can be interpreted as customer lifetime value, and thus allows for a quick plug-in estimation of CLV for a given client. Experimental results are presented, based on KDD Cup 1998 mailing dataset of donation solicitations.

研究动机与目标

开发一种自主CRM控制系统，利用强化学习优化直接营销行为。
将深度Q学习扩展至CRM场景中同时处理离散与连续动作空间。
使用改进的RFM-I框架构建丰富、数据驱动的客户状态表征。
将客户终身价值（CLV）作为Q值函数的副产品进行估计，以支持可操作的决策。
在真实世界直接营销数据上验证该框架，并展示显著的性能提升。

提出的方法

客户状态通过改进的RFM-I框架进行表征，整合交易与营销互动的最近性、频率及货币价值。
采用无模型的深度Q学习（DQN）算法，训练深度神经网络根据观测到的奖励将客户状态映射到最优动作。
使用经验回放与目标网络以稳定训练并减少DQN算法中的数据相关性。
提出一种DQN的新扩展，通过连续输出头对动作值进行回归，以处理连续动作空间。
将Q值函数的输出解释为特定动作的残差客户终身价值（CLV）估计。
在KDD Cup 1998捐赠数据集上训练系统，并通过未见数据进行验证以评估性能。

实验结果

研究问题

RQ1深度强化学习模型能否仅基于RFM-I客户状态特征有效学习最优营销行为？
RQ2所提出的DQN模型在未见客户状态下的响应率与捐款金额方面泛化能力如何？
RQ3能否在不损害训练稳定性的前提下，将连续动作空间有效整合进深度Q学习的CRM控制中？
RQ4在本情境下，Q值函数在多大程度上可作为客户终身价值（CLV）的可靠代理？
RQ5该框架能否在冷启动场景中通过随机探索与自我收集经验实现自主运行？

主要发现

与基线策略相比，该模型在KDD Cup 1998数据集上实现了平均捐款金额超过50%的提升。
深度Q网络成功学习到推荐能最大化长期累积回报的动作，其证据来自状态维度上预期折扣回报曲面的清晰表现。
将连续动作空间整合进DQN框架是可行的，但收敛稳定性仍具挑战，需进一步研究。
Q值函数输出经实证验证，可作为动作相关残差客户终身价值（CLV）的可靠估计。
系统通过随机探索构建训练数据集，展示了自主学习能力，无需依赖历史记录即可运行。
在RFM-I维度上预期回报的可视化揭示了基于客户状态的最优动作选择模式，其中动作4在高价值区域始终表现最优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。