Skip to main content
QUICK REVIEW

[论文解读] Model-Based Active Exploration

Pranav Shyam, Wojciech Jaśkowski|arXiv (Cornell University)|Oct 29, 2018
Reinforcement Learning in Robotics参考文献 42被引用 42
一句话总结

MAX 使用前向模型的集合来主动寻找可学习的未知,通过测量预测未来的分歧,在离散和连续环境中实现高效探索,并提高相对于被动基线的数据效率。

ABSTRACT

Efficient exploration is an unsolved problem in Reinforcement Learning which is usually addressed by reactively rewarding the agent for fortuitously encountering novel situations. This paper introduces an efficient active exploration algorithm, Model-Based Active eXploration (MAX), which uses an ensemble of forward models to plan to observe novel events. This is carried out by optimizing agent behaviour with respect to a measure of novelty derived from the Bayesian perspective of exploration, which is estimated using the disagreement between the futures predicted by the ensemble members. We show empirically that in semi-random discrete environments where directed exploration is critical to make progress, MAX is at least an order of magnitude more efficient than strong baselines. MAX scales to high-dimensional continuous environments where it builds task-agnostic models that can be used for any downstream task.

研究动机与目标

  • 激发并解决高维 RL 环境中被动探索的低效问题。
  • 提出一个基于模型分歧的有原则的、受贝叶斯启发的探索目标。
  • 开发自举集合和可处理的散度度量来估计新颖性。
  • 实现能够为下游任务建立可重复使用的任务无关动态模型的探索。

提出的方法

  • 将探索表述为最大化信息增益,该信息增益通过跨前向模型集合的下一个状态分布的 Jensen-Shannon Divergence (JSD) 来衡量。
  • 用在经验数据上训练的自举集合来近似环境动力学的先验。
  • 将探索 MDP 定义为其效用 u(s,a) 等于集合预测之间的分歧。
  • 使用集合平均的熵差(JSD)计算 u(s,a),对于连续空间,使用 Jensen-Rényi Divergence(二次 Rényi 熵)。
  • 使用温度调整的方差界来调节在嘈杂环境中对模型不确定性的敏感性。
  • 在每一步求解一个内部规划问题(Explore MDP)以推导探索策略,然后收集真实数据来更新集合。

实验结果

研究问题

  • RQ1是否可以利用前向模型的集合通过定位可学习的未知来主动规划探索?
  • RQ2基于散度的效用(JSD/JRD)在离散和连续情境中与被动探索奖励相比如何?
  • RQ3MAX 是否能扩展到高维连续环境并为下游任务提供更高的数据效率?

主要发现

  • 在离散 Chain 环境中,MAX 在大约 15 集合下探索了 100% 的转移,而被动基线在 60 集合达到 40%。
  • 在 Ant Maze 连续环境中,MAX 大约在 40 集(12k 步)达到迷宫尽头,优于被动基线。
  • 在 Half Cheetah 中,MAX 收集的数据在用于模型基 RL 时比被动基线获得更好的下游性能。
  • 在如 Ant Maze 和 Half Cheetah 的连续域中,MAX 与 TVAX(两者为主动方法)超越被动方法(JDRX 与 PERX),其中 MAX 显示出特别强劲的表现。
  • 该方法将可学习的不确定性与不可学习的噪声区分开来,在环境包含随机或嘈杂动力学时保持鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。