[论文解读] Deep reinforcement learning for search, recommendation, and online advertising: a survey
对深度强化学习在搜索、推荐和在线广告中的应用进行全面综述,详细介绍基础、代表性算法、应用与未来方向。
Search, recommendation, and online advertising are the three most important information-providing mechanisms on the web. These information seeking techniques, satisfying users' information needs by suggesting users personalized objects (information or services) at the appropriate time and place, play a crucial role in mitigating the information overload problem. With recent great advances in deep reinforcement learning (DRL), there have been increasing interests in developing DRL based information seeking techniques. These DRL based techniques have two key advantages -- (1) they are able to continuously update information seeking strategies according to users' real-time feedback, and (2) they can maximize the expected cumulative long-term reward from users where reward has different definitions according to information seeking applications such as click-through rate, revenue, user satisfaction and engagement. In this paper, we give an overview of deep reinforcement learning for search, recommendation, and online advertising from methodologies to applications, review representative algorithms, and discuss some appealing research directions.
研究动机与目标
- 激励在信息检索任务中使用强化学习,以应对动态的用户偏好。
- 总结 RL 在搜索、推荐和广告中的方法学基础,包括 MAB、MDP、POMDP 和策略学习。
- 回顾三个领域(搜索、推荐和在线广告)中的代表性 DRL 算法和系统。
- 讨论推动基于 RL 的信息检索系统发展面临的挑战与未来方向。
提出的方法
- 介绍 RL 的技术基础和问题形式化(MAB、MDP、POMDP、多智能体场景)。
- 区分基于模型与无模型的 RL,以及基于值与基于策略的方法(Q-learning、DQN、Actor-Critic)。
- 综述 RL 在搜索任务中的应用:查询理解、排序、整页优化、会话搜索。
- 综述 RL 在推荐中的应用:开发利用/探索、时序动态、长期参与度、逐页推荐。
- 综述 RL 在在线广告中的应用:保证投放与实时竞价,包括基于模型和无模型的方法。
实验结果
研究问题
- RQ1RL 框架如何在搜索、推荐和广告任务中建模动态用户行为?
- RQ2在每个信息检索领域中,哪些关键的 RL 算法与体系结构是有效的?
- RQ3将 DRL 应用于搜索、推荐和在线广告存在哪些未解挑战,哪些方向对未来工作具有潜力?
- RQ4如何通过 RL 促进搜索、推荐和广告之间的跨领域协作?
主要发现
- 本综述概述了与信息检索相关的核心 RL 基础知识,包括 MAB、MDP、POMDP 以及多智能体模型。
- 它总结了用于排序、多样性、会话建模和整页呈现的代表性 DRL 方法在搜索和推荐中的应用。
- 它回顾了基于 DRL 的在线广告策略,包括竞价、预算管理以及合作/多智能体方法。
- 论文强调长期奖励和用户参与度作为超越即时点击或展示的基准的重要性。
- 它讨论了未来方向,如跨场景协同 RL、更丰富的奖励设计、扩展的用户–智能体交互,以及离线/在线评估工具。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。