Skip to main content
QUICK REVIEW

[论文解读] Horizon: Facebook's Open Source Applied Reinforcement Learning Platform

Jason Gauci, Edoardo Conti|arXiv (Cornell University)|Nov 1, 2018
Reinforcement Learning in Robotics参考文献 42被引用 90
一句话总结

Horizon 是 Facebook 的开源端到端平台,用于大规模现实世界数据上的应用强化学习,提供数据预处理、特征归一化、数据理解、多节点训练、反事实策略评估、优化部署,以及面向生产的部署能力。

ABSTRACT

In this paper we present Horizon, Facebook's open source applied reinforcement learning (RL) platform. Horizon is an end-to-end platform designed to solve industry applied RL problems where datasets are large (millions to billions of observations), the feedback loop is slow (vs. a simulator), and experiments must be done with care because they don't run in a simulator. Unlike other RL platforms, which are often designed for fast prototyping and experimentation, Horizon is designed with production use cases as top of mind. The platform contains workflows to train popular deep RL algorithms and includes data preprocessing, feature transformation, distributed training, counterfactual policy evaluation, optimized serving, and a model-based data understanding tool. We also showcase and describe real examples where reinforcement learning models trained with Horizon significantly outperformed and replaced supervised learning systems at Facebook.

研究动机与目标

  • 解决将强化学习应用于真实的、行业产生的数据而非仿真环境所带来的挑战。
  • 提供一个端到端的平台,支持数据预处理、特征归一化、模型训练、评估和部署,以用于生产强化学习用例。
  • 展示在 Facebook 的真实部署中,使用 Horizon 训练的强化学习模型在效果上优于监督或启发式策略。
  • 提供用于问题表述验证和数据理解的工具,以确保强化学习应用于良好设定的任务。

提出的方法

  • 使用 PyTorch 进行建模/训练、Caffe2 进行模型部署的端到端平台,基于 Python 构建。
  • 基于 Spark 的 Timeline 数据预处理流水线,将日志数据转换为强化学习训练格式。
  • 特征归一化工作流,能够自动检测特征类型并为训练和部署计算归一化参数。
  • 数据理解工具,使用带高斯混合模型层的概率神经网络来评估 MDP 符合性和特征重要性。
  • 实现离散动作 DQN、参数化动作 DQN、DDPG 与 SAC,以覆盖离散、极大离散和连续动作空间。
  • 在 CPU/GPU/多节点环境上进行分布式训练,支持 PyTorch 多GPU。
  • 在训练与评估中集成反事实策略评估(CPE)方法(DM、IS、DR、序列化 DR、MAGIC)。
  • 通过将 PyTorch 模型导出到 ONNX 再到 Caffe2,实现大规模部署的优化模型服务。

实验结果

研究问题

  • RQ1如何在没有或不适用仿真器的情况下,将强化学习有效应用于大规模、现实世界的生产数据?
  • RQ2在生产环境中,需要哪些端到端工具和数据工作流来进行预处理、归一化、评估和部署强化学习模型?
  • RQ3反事实策略评估方法是否能在不进行大量在线试验的情况下,提供可靠的离线估计来指导生产强化学习?
  • RQ4使用 Horizon 训练的生产性强化学习模型是否能在真实应用中显示出相对于监督或启发式策略的明显改进?

主要发现

  • Horizon 支持在多节点和多 GPU 设置下对数百万样本进行训练,使在大规模特征空间上的迭代速度更快。
  • 离线反事实策略评估方法被集成到训练中,能够在无需立即在线部署的情况下提供策略性能的估计。
  • 在 Facebook 的生产部署中,使用 Horizon 训练的强化学习模型在推送通知和网页管理员通知等任务上超越监督学习和启发式策略。
  • 数据理解工具有助于确保强化学习问题符合 MDP 框架,并识别有意义的特征以及行动-状态关系。
  • 特征归一化和数据预处理流水线在处理大规模、稀疏且异质的特征集时,有助于提升收敛性和模型性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。