[论文解读] Multi-Level Discovery of Deep Options
深度选项发现(DDO)从示范中学习参数化的选项,以构建多层次的层级,并增强强化学习代理以加速学习,在 Atari RAM、GridWorld 和手术数据上得到证明。
Augmenting an agent's control with useful higher-level behaviors called options can greatly reduce the sample complexity of reinforcement learning, but manually designing options is infeasible in high-dimensional and abstract state spaces. While recent work has proposed several techniques for automated option discovery, they do not scale to multi-level hierarchies and to expressive representations such as deep networks. We present Discovery of Deep Options (DDO), a policy-gradient algorithm that discovers parametrized options from a set of demonstration trajectories, and can be used recursively to discover additional levels of the hierarchy. The scalability of our approach to multi-level hierarchies stems from the decoupling of low-level option discovery from high-level meta-control policy learning, facilitated by under-parametrization of the high level. We demonstrate that using the discovered options to augment the action space of Deep Q-Network agents can accelerate learning by guiding exploration in tasks where random actions are unlikely to reach valuable states. We show that DDO is effective in adding options that accelerate learning in 4 out of 5 Atari RAM environments chosen in our experiments. We also show that DDO can discover structure in robot-assisted surgical videos and kinematics that match expert annotation with 72% accuracy.
研究动机与目标
- 通过用更高层次的选项来增强智能体,激发降低强化学习中的样本复杂性。
- 开发一种可扩展的方法,从示范中发现深层次的选项层级。
- 将低层选项发现与高层元控制解耦,以实现多层级的发现。
- 证明所发现的选项在与深度Q网络(DQN)代理结合时能够加速学习。
- 展示在多样化领域的适用性,包括 Atari RAM、GridWorld 和机器人外科手术领域。
提出的方法
- 提出分层行为克隆(HBC)以从示范中推断层级。
- 提出一个两级生成模型,包含低级选项与高级元控制 η。
- 使用期望梯度(EG)算法计算边缘后验并更新选项和元控制参数。
- 将发现视为一个软聚类问题,其中数据点由特定于选项的后验权重。
- 通过迭代式地发现带有简化的(通常是均匀的)元控制策略的层级,扩展到更深的层级以实现层级解耦。
- 通过用发现的选项扩充 DQN 动作空间来证明强化学习加速。
实验结果
研究问题
- RQ1DDO 能否从示范中可靠地发现有用的深层选项?
- RQ2将低层选项发现与更高层的元控制解耦是否使多层级层级具有可扩展性?
- RQ3将发现的选项添加到深度Q网络代理中是否能加速学习?
- RQ4DDO 是否能揭示人类示范(如手术任务)中可解释的结构?
主要发现
- DDO 通过用发现的选项扩充动作空间,在多个领域加速强化学习。
- 在 Atari RAM 实验中,五个游戏中有四个在使用 DDO 发现的选项时显示出显著的学习加速。
- 在 GridWorld 实验中,二层层级(H2)比单层层级(H1)带来更大收益。
- 在机器人手术数据中发现的选项在匹配专家边界方面达到 72% 的准确率(相比随机的 14%)。
- 在某些设置中,较不具表达力的元控制参数化也能与高度表达力的参数化表现相当甚至更好,有助于扩展性。
- 从自生成示范中发现的选项仍然由于引导探索而促进更快的学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。