QUICK REVIEW

[论文解读] Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate

Xiao Ma, Liqin Zhao|arXiv (Cornell University)|Apr 21, 2018

Recommender Systems and Techniques参考文献 12被引用 55

一句话总结

ESMM 通过在整个展示空间预测 CTR 和 CTCVR，并通过它们的乘积推导 CVR，来建模点击后 CVR，解决样本选择偏差和数据稀疏性，同时在多任务之间共享嵌入；在淘宝数据上显著提升 CVR/CTCVR 的 AUC 相对于基线。

ABSTRACT

Estimating post-click conversion rate (CVR) accurately is crucial for ranking systems in industrial applications such as recommendation and advertising. Conventional CVR modeling applies popular deep learning methods and achieves state-of-the-art performance. However it encounters several task-specific problems in practice, making CVR modeling challenging. For example, conventional CVR models are trained with samples of clicked impressions while utilized to make inference on the entire space with samples of all impressions. This causes a sample selection bias problem. Besides, there exists an extreme data sparsity problem, making the model fitting rather difficult. In this paper, we model CVR in a brand-new perspective by making good use of sequential pattern of user actions, i.e., impression -> click -> conversion. The proposed Entire Space Multi-task Model (ESMM) can eliminate the two problems simultaneously by i) modeling CVR directly over the entire space, ii) employing a feature representation transfer learning strategy. Experiments on dataset gathered from Taobao's recommender system demonstrate that ESMM significantly outperforms competitive methods. We also release a sampling version of this dataset to enable future research. To the best of our knowledge, this is the first public dataset which contains samples with sequential dependence of click and conversion labels for CVR modeling.

研究动机与目标

通过对整个空间进行估计来解决 CVR 建模中的样本选择偏差。
通过从更丰富的 CTR 数据中转移表示学习来缓解 CVR 的数据稀疏性。
利用序列化用户行为模式（展示 -> 点击 -> 转化）来改进 CVR 估计。
引入一个联合建模 CTR、CVR 和 CTCVR 的多任务框架，以实现跨行动序列的一致推断。

提出的方法

将 CVR、CTR 和 CTCVR 视为两个共享嵌入表示的主子网络来建模。
在整个空间直接预测 pCTR 和 pCTCVR；通过乘法从 pCTR 与 pCTCVR 推导 pCVR（pCTCVR = pCTR * pCVR）。
使用联合损失进行训练，该损失在所有展示上计算 CTR 和 CTCVR 项（对仅点击样本不计算 CVR 损失）。
在 CVR 和 CTR 网络之间共享嵌入参数，以实现从丰富的 CTR 数据中进行迁移学习。
使用乘积形式以避免 DIVISION 风格方法中的数值不稳定性。
可选地，CTCVR 输出是 CTR 和 CVR 网络输出的乘积。

实验结果

研究问题

RQ1ESMM 能否通过在整个空间建模来消除 CVR 的样本选择偏差？
RQ2在数据稀疏条件下，CTR 与 CVR 网络之间共享嵌入并利用序列动作信息是否能改善 CVR 估计？
RQ3与传统 CVR 模型和基于除法的方法相比，ESMM 在整个展示空间上的预测性能如何？
RQ4在工业规模数据上，ESMM 在 CVR 和 CT-CVR 任务上取得了哪些经验性提升？

主要发现

ESMM 在公开数据集上显著优于基线，在 CVR 和 CTCVR 任务上均有提升，CTCVVR 的提升最明显。
在公开数据集上，ESMM 相较 BASE 在 CVR 上取得绝对 AUC 增益 2.56%，在 CTCVR 上取得 3.25% 的增益。
ESMM-NS（共享嵌入变体）已优于 BASE，ESMM 通过利用序列化动作结构和迁移学习进一步超越了 ESMM-NS。
在 Product 数据集（8.9B 条样本）上，ESMM 在全数据训练时对不同抽样率的竞争对手持续领先，CVR 与 CTCVR 的绝对 AUC 增益分别为 2.18% 和 2.32%，相对于 BASE。
将 pCVR 分解为 pCTR 与 pCTCVR 而不进行联合训练可能导致数值不稳定，ESMM 通过乘法公式降低了这种风险。
使用全空间训练和嵌入共享使得能够从丰富的 CTR 数据中有效学习，以缓解 CVR 数据稀疏性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。