[论文解读] AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction
AutoFIS 引入了一种两阶段方法,通过在因子分解模型中自动选择和修剪特征交互以用于 CTR 预测,使用连续架构参数和 GRDA 在搜索阶段学习重要交互并在再训练阶段以类似注意力的门控进行再训练。
Learning feature interactions is crucial for click-through rate (CTR) prediction in recommender systems. In most existing deep learning models, feature interactions are either manually designed or simply enumerated. However, enumerating all feature interactions brings large memory and computation cost. Even worse, useless interactions may introduce noise and complicate the training process. In this work, we propose a two-stage algorithm called Automatic Feature Interaction Selection (AutoFIS). AutoFIS can automatically identify important feature interactions for factorization models with computational cost just equivalent to training the target model to convergence. In the \emph{search stage}, instead of searching over a discrete set of candidate feature interactions, we relax the choices to be continuous by introducing the architecture parameters. By implementing a regularized optimizer over the architecture parameters, the model can automatically identify and remove the redundant feature interactions during the training process of the model. In the \emph{re-train stage}, we keep the architecture parameters serving as an attention unit to further boost the performance. Offline experiments on three large-scale datasets (two public benchmarks, one private) demonstrate that AutoFIS can significantly improve various FM based models. AutoFIS has been deployed onto the training platform of Huawei App Store recommendation service, where a 10-day online A/B test demonstrated that AutoFIS improved the DeepFM model by 20.3\% and 20.1\% in terms of CTR and CVR respectively.
研究动机与目标
- 证明选择有意义的低阶和高阶特征交互对 CTR 模型的重要性,以提高预测性能和效率。
- 提出 AutoFIS,一种两阶段方法,在保持接近收敛训练成本的前提下,自动发现有用的交互。
- 证明去除冗余交互可以提升准确性并降低基于 FM 的模型的推断时间。
- 展示学习到的高阶交互可以提升现有模型并在真实系统中带来在线性能提升。
提出的方法
- 将离散的交互选择问题放宽到每个潜在交互的连续架构参数空间。
- 使用门控机制,其中架构参数决定在搜索阶段是否保留某个交互。
- 对成对交互分数应用批归一化(Batch Normalization),以将尺度与架构参数解耦。
- 在一层优化设置中联合优化架构参数和模型权重(不是双层优化)。
- 使用 GRDA 优化器在架构参数中引入稀疏性,实质上对不重要交互进行修剪。
- 在再训练阶段,固定保留的交互,并以架构参数作为注意力单元而非二进制门进行再训练。
实验结果
研究问题
- RQ1RQ1: AutoFIS 能否通过选择因子分解模型中的交互来改善 CTR 模型的性能?
- RQ2RQ2: AutoFIS 找到的交互是否可以迁移以改进其他模型或减少推断时间?
- RQ3RQ3: 所选择的交互是否确实对模型性能有显著影响?
- RQ4RQ4: AutoFIS 是否在实时生产推荐系统中带来收益?
- RQ5RQ5: 批归一化等组件如何为 AutoFIS 的性能做出贡献?
主要发现
- AutoFIS 可以移除大量的二阶交互(例如 Avazu 上 71%,DeepFM 的二阶为 76%)且仍相对于基线提高 AUC。
- AutoFM 与 AutoDeepFM 结合选定交互,在 Avazu、Criteo 和私有数据集上,在 AUC和/或对数损失方面优于相应基线。
- 华为应用商店的在线 A/B 测试显示,应用 AutoFIS 之后,DeepFM 的 CTR 提升约 20.3%,CVR 提升约 20.1%。
- 该方法使得使用一组相对较小的高质量交互就能在几乎不增加额外计算的情况下提升性能。
- 在探索时选择的三阶交互在成本不高的前提下能带来少量正向提升(例如 0.1%–0.2% 的 AUC)。
- AutoFIS 识别出的重要交互也可以提升现有的最先进模型的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。