Skip to main content
QUICK REVIEW

[论文解读] Reinforcement Learning Applications

Yuxi Li|arXiv (Cornell University)|Aug 19, 2019
Reinforcement Learning in Robotics参考文献 70被引用 45
一句话总结

对强化学习基础及其在现实世界应用的综述,重点关注推荐系统、计算机系统、能源、金融、医疗保健、机器人技术和交通,以及用于应用强化学习的平台如 Horizon。

ABSTRACT

We start with a brief introduction to reinforcement learning (RL), about its successful stories, basics, an example, issues, the ICML 2019 Workshop on RL for Real Life, how to use it, study material and an outlook. Then we discuss a selection of RL applications, including recommender systems, computer systems, energy, finance, healthcare, robotics, and transportation.

研究动机与目标

  • 介绍强化学习及其在多个领域的实际意义。
  • 讨论成功的强化学习应用及部署中的现实挑战。
  • 展示在工业界应用强化学习的框架、平台和案例研究。
  • 突出供从业者在探索强化学习时参考的重要问题、指南和资源。

提出的方法

  • 提供对强化学习概念的高层次概览,包括智能体、环境、奖励、价值函数和策略优化。
  • 描述无模型与有模型的强化学习,以及深度强化学习算法如 DQN、A3C、DDPG、TRPO、PPO 与 soft actor-critic。
  • 解释强化学习部署的实际考虑,包括探索与利用的权衡与仿真到现实的迁移。
  • 展示将强化学习应用于大规模现实系统的架构模式与平台(Decision Service、Horizon)。
  • 通过推荐系统、计算机系统、能源、金融、医疗保健、机器人技术和交通等领域来说明强化学习的应用。

实验结果

研究问题

  • RQ1哪些核心的强化学习技术适用于现实世界的序列决策问题?
  • RQ2如何在大规模生产系统(如推荐引擎、数据中心)中有效部署强化学习,同时解决部分反馈和延迟奖励的问题?
  • RQ3有哪些平台与最佳实践可促进应用化强化学习的开发与监控?

主要发现

  • 强化学习已被应用于广泛的问题,包括阿塔里游戏、AlphaGo、星际争霸 II、Dota 2,以及现实世界系统如数据中心冷却。
  • 情境赌博(contextual bandits)和策略评估使在具有部分和延迟反馈的推荐系统等场景中实现可扩展的实验成为可能。
  • 开源平台如 Horizon 与 Decision Service 提供从数据预处理、特征归一化、模型训练、评估到服务化的端到端流水线。
  • 现实世界的强化学习部署可实现显著改进,如点击率提升(>25%)、内容/视频推荐提升(>30%)、收入增长(18%)和等待时间减少(19%)。
  • 强化学习的挑战仍然存在,包括探索与利用、样本效率、信用分配、可重复性和安全性,这些问题正在积极研究中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。