QUICK REVIEW

[论文解读] Composable Planning with Attributes

Amy Zhang, Adam Lerer|arXiv (Cornell University)|Mar 1, 2018

Reinforcement Learning in Robotics参考文献 38被引用 26

一句话总结

该论文提出了一种可组合的规划框架，利用用户定义的属性来表示环境状态，并通过组合先前学习到的策略实现在复杂任务上的零样本泛化。该方法训练一个策略以在属性集合之间进行转移，并使用学习到的转移图通过Dijkstra算法进行路径查找，在3D积木堆叠、网格世界和StarCraft环境中均取得成功，且在推理阶段无需任务特定的强化学习。

ABSTRACT

The tasks that an agent will need to solve often are not known during training. However, if the agent knows which properties of the environment are important then, after learning how its actions affect those properties, it may be able to use this knowledge to solve complex tasks without training specifically for them. Towards this end, we consider a setup in which an environment is augmented with a set of user defined attributes that parameterize the features of interest. We propose a method that learns a policy for transitioning between "nearby" sets of attributes, and maintains a graph of possible transitions. Given a task at test time that can be expressed in terms of a target set of attributes, and a current state, our model infers the attributes of the current state and searches over paths through attribute space to get a high level plan, and then uses its low level policy to execute the plan. We show in 3D block stacking, grid-world games, and StarCraft that our model is able to generalize to longer, more complex tasks at test time by composing simpler learned policies.

研究动机与目标

使智能体能够在不进行任务特定强化学习的情况下泛化到未见过的复杂任务。
开发一种将简单、先前学习到的策略组合成高层计划以应对新任务的方法。
使用手动定义的属性作为状态抽象，以捕捉与任务相关的环境属性。
训练一个模型，学习属性状态之间的转移概率，以实现无需环境奖励的规划。
在测试时通过学习到的转移图和低层级策略在属性空间中进行规划。

提出的方法

该方法使用神经网络从状态中检测属性，基于标注的（状态，属性）对进行训练。
通过探索性策略收集经验，构建属性集合之间的初始转移计数图。
通过稀疏奖励（若达到目标属性集合则为1，否则为0）进行强化学习，训练一个低层级的目标条件策略。
维护一个转移表 $ c_{/pi} $，表示为成功转移次数与尝试次数的比值，以反映属性集合之间的成功概率。
在测试时，使用Dijkstra算法在属性空间中寻找累积成功概率最高的路径，边权重为 $ -\log c_{\\/pi} $。
智能体通过依次应用低层级策略来执行计算出的路径中的每一步，若属性状态发生偏离则重新规划。

实验结果

研究问题

RQ1智能体能否通过组合先前学习到的简单策略来泛化到长时序、复杂任务？
RQ2用户定义的属性在多大程度上可作为组合规划的有意义状态抽象？
RQ3在稀疏奖励且无任务特定训练的环境中，基于属性的规划泛化效果如何？
RQ4一种无需环境奖励的基于模型的规划方法是否仍能在未见过的任务上实现高成功率？
RQ5该方法在具有复杂动作层次的现实环境（如StarCraft）中可扩展性如何？

主要发现

该模型通过组合训练期间学习到的单步动作策略，成功实现了在3D积木堆叠任务中的多步任务泛化。
在2D网格世界环境中，该方法在长于训练时所见的任务中也实现了高成功率，展示了组合泛化能力。
该方法泛化到了StarCraft单位建造任务，在无需针对这些特定任务进行额外训练的情况下解决了复杂且长时序的任务。
基于图的规划机制结合学习到的转移概率，即使在环境动力学复杂的情况下也能实现稳健的路径查找。
该方法在零样本泛化方面优于标准强化学习基线，尤其在需要长序列动作的任务中表现更优。
属性检测器和策略网络在将状态映射到抽象表示以及基于高层目标执行动作方面均表现有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。