QUICK REVIEW

[论文解读] Generalized Planning With Deep Reinforcement Learning

Or Rivlin, Tamir Hazan|arXiv (Cornell University)|May 5, 2020

AI-based Problem Solving and Planning参考文献 29被引用 24

一句话总结

本文提出一种基于图神经网络（GNN）的深度强化学习方法，用于学习可推广的规划策略，以解决远超训练实例规模的大规模规划问题。通过使用策略梯度方法训练反应式策略，并将其整合到目标有界搜索算法（GBFS-GNN）中，该方法在扩展状态数方面展现出卓越的可扩展性，并在运行时间上与最先进经典规划器相比具有竞争力，即使在比训练数据大几个数量级的实例上也表现优异。

ABSTRACT

A hallmark of intelligence is the ability to deduce general principles from examples, which are correct beyond the range of those observed. Generalized Planning deals with finding such principles for a class of planning problems, so that principles discovered using small instances of a domain can be used to solve much larger instances of the same domain. In this work we study the use of Deep Reinforcement Learning and Graph Neural Networks to learn such generalized policies and demonstrate that they can generalize to instances that are orders of magnitude larger than those they were trained on.

研究动机与目标

开发一种能够解决远超训练数据规模的实例的泛化规划策略的方法。
探究具备适当归纳偏置的图神经网络是否能够实现强化学习在经典规划中的有效泛化。
设计一种利用学习到的反应式策略高效求解大规模规划实例的搜索算法，且搜索开销最小。
评估深度强化学习策略在多样化规划领域中的泛化能力，尤其与经典规划器进行对比。
识别影响泛化性能的网络架构与训练因素，特别是在Logistics等高度耦合领域中。

提出的方法

该方法采用深度强化学习与策略梯度算法，直接从环境交互中训练具有图结构归纳偏置的神经网络的随机反应式策略。
使用图神经网络（GNN）将规划问题的状态编码为图结构，其中节点代表对象，边代表关系，从而实现结构化泛化。
通过蒙特卡洛滚动回溯训练策略，使用鼓励向目标状态推进的奖励函数，目标是最大化有限时域内的累积奖励。
提出GBFS-GNN作为搜索算法，将学习到的策略作为启发式函数，结合贪婪滚动与有界搜索，以高效探索大规模状态空间。
该框架基于Pyperplan和Fast Downward实现后继状态生成器与合法动作过滤器，确保正确性并兼容标准PDDL规划领域。
训练过程不依赖最优解或手工设计的启发式函数，而是仅从环境反馈中端到端学习。

实验结果

研究问题

RQ1基于GNN的深度强化学习能否学习到可泛化至比训练分布大几个数量级的实例的规划策略？
RQ2GNN架构的归纳偏置如何影响规划策略中泛化能力的出现？
RQ3在哪些规划领域中，学习到的策略会失效？这些领域的结构特性如何导致泛化失败？
RQ4一种利用高性能反应式策略的搜索算法，是否能在后继状态生成较慢的情况下，仍优于经典规划器在状态空间扩展方面的表现？
RQ5在Logistics等高度耦合领域中，哪些网络架构或训练调整可提升泛化性能？

主要发现

GBFS-GNN在五个领域中的四个实现了更高的成功率达到扩展状态数，显示出因策略有效泛化而带来的强大可扩展性。
在Blocksworld及其他领域中，该方法仅需极少的搜索——通常仅几次滚动回溯——因为策略本身极为有效，表明其具备极强的泛化能力。
尽管后继状态生成器比Fast Downward的C++实现慢几个数量级，GBFS-GNN在四个领域中的运行时间仍与Fast Downward持平或更优。
该方法在Logistics领域表现显著不佳，其中对象间的紧密耦合（如共享卡车和飞机）阻碍了泛化，表明在处理相互依赖目标时存在架构局限性。
Logistics失败的原因在于策略无法在完成前持续聚焦于单一目标，表明需要对架构进行修改以增强目标持久性。
结果表明，通过适当的归纳偏置，深度强化学习可学习到类似人类设计策略的一般性原则，例如在重新堆叠前先解除所有积木的堆叠，即使未访问最优解亦可实现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。