[论文解读] Distribution-Aware End-to-End Embedding for Streaming Numerical Features in Click-Through Rate Prediction
tldr: DAES 通过在流式数值特征中使用基于水库的分位数估计和字段感知调制,实现对分布感知的端到端嵌入,显著优于早期方法,并在大规模平台上部署。
This paper explores effective numerical feature embedding for Click-Through Rate prediction in streaming environments. Conventional static binning methods rely on offline statistics of numerical distributions; however, this inherently two-stage process often triggers semantic drift during bin boundary updates. While neural embedding methods enable end-to-end learning, they often discard explicit distributional information. Integrating such information end-to-end is challenging because streaming features often violate the i.i.d. assumption, precluding unbiased estimation of the population distribution via the expectation of order statistics. Furthermore, the critical context dependency of numerical distributions is often neglected. To this end, we propose DAES, an end-to-end framework designed to tackle numerical feature embedding in streaming training scenarios by integrating distributional information with an adaptive modulation mechanism. Specifically, we introduce an efficient reservoir-sampling-based distribution estimation method and two field-aware distribution modulation strategies to capture streaming distributions and field-dependent semantics. DAES significantly outperforms existing approaches as demonstrated by extensive offline and online experiments and has been fully deployed on a leading short-video platform with hundreds of millions of daily active users.
研究动机与目标
- 在流式环境中当分布随时间漂移时,为CTR的数值特征嵌入提供动机。
- 提出一个端到端框架,在适应流式数据的同时保留分布信息。
- 解决非独立同分布的流数据及数值特征的上下文相关语义。
- 通过将预处理集成到模型训练中来降低工程复杂性。
- 通过离线基准和真实世界部署来证明有效性。
提出的方法
- 引入 DAES,一个端到端框架,通过在分布的分位数空间中建模来嵌入数值特征。
- 开发 Jump Reservoir Sampling (JRS),在内存受限下高效估计全局在线分位数。
- 使用分位数空间插值将输入映射到分布感知坐标。
- 应用基于字段嵌入的上下文条件分布调制(门控或仿射)来产生特定上下文权重。
- 通过元嵌入聚合形成最终的数值特征表示。
- 将分布感知表示整合到标准 CTR 架构中实现端到端训练。
实验结果
研究问题
- RQ1如何在内存受限的情况下高效估计流式数值特征的分布信息?
- RQ2在流式 CTR 中,分位数空间编码是否比数值空间或离线统计方法更能保留分布特征?
- RQ3如何结合字段上下文以避免语义漂移,同时不使参数复杂度爆炸?
- RQ4与现有静态、插值或朴素神经嵌入相比,DAES 的分布感知嵌入是否提升 CTR 性能?
主要发现
- DAES 在多种 CTR 基线和数据集上的离线评估中显著优于最先进的数值特征嵌入方法。
- Jump Reservoir Sampling 提供一种高效、带内存约束的在线分位数估计方法,并具有可证明的一致性。
- 分位数空间插值结合字段感知调制比数值空间或离线统计方法更有效地捕捉分布和上下文相关语义。
- 两种字段感知调制策略(门控和仿射变换)提升对子群分布的适应性。
- DAES 具备强大的在线性能,已在服务数亿日活用户的平台上发布部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。