[论文解读] Learning Domain-Independent Planning Heuristics with Hypergraph Networks
本文提出了 STRIPS-HGNs,一种新颖的超图神经网络框架,通过在删除松弛的 STRIPS 问题的超图表示上执行消息传递,从零开始学习与领域无关的规划启发式方法。该方法在 LM-cut 等最先进启发式方法的性能水平上表现优异,并能有效泛化到训练过程中未见过的领域,包括从未见过的领域。
We present the first approach capable of learning domain-independent planning heuristics entirely from scratch. The heuristics we learn map the hypergraph representation of the delete-relaxation of the planning problem at hand, to a cost estimate that approximates that of the least-cost path from the current state to the goal through the hypergraph. We generalise Graph Networks to obtain a new framework for learning over hypergraphs, which we specialise to learn planning heuristics by training over state/value pairs obtained from optimal cost plans. Our experiments show that the resulting architecture, STRIPS-HGNs, is capable of learning heuristics that are competitive with existing delete-relaxation heuristics including LM-cut. We show that the heuristics we learn are able to generalise across different problems and domains, including to domains that were not seen during training.
研究动机与目标
- 开发一种完全从零开始学习规划启发式方法的机制,不依赖手工设计的特征或现有启发式组件。
- 实现所学启发式方法在不同问题实例中的泛化能力,包括不同数量的对象、初始状态和目标。
- 通过在多个领域上进行训练并在未见领域上进行评估,将泛化能力扩展到已知领域之外。
- 设计一种能够对具有可变大小和结构的超图实现组合泛化的深度学习架构。
- 证明基于超图的神经网络能够学习到有效且具有竞争力的启发式方法,其性能可与已建立的领域特定启发式方法相媲美。
提出的方法
- 作者提出了超图网络(HGNs),这是图网络在超图上的推广,支持通过连接多个顶点的超边进行消息传递。
- STRIPS-HGNs 使用循环的编码-处理-解码架构,通过删除松弛规划问题的超图表示的潜在空间迭代传播消息。
- 该模型通过从最优计划中提取的状态/值对进行训练,学习将超图结构映射到准确的启发式代价估计。
- 超图表示将命题编码为顶点,将动作编码为连接前提条件与效果的超边,适用于删除松弛问题。
- 该框架通过学习在具有不同顶点数和超边数的超图上保持不变的表示,支持组合泛化。
- 该网络架构避免了先前模型(如 ASNets)常见的固定感受野限制,从而支持长距离推理。
实验结果
研究问题
- RQ1深度学习模型能否完全从零开始学习与领域无关的规划启发式方法,而不依赖于现有的启发式组件?
- RQ2所学启发式方法能否在已知领域内,对不同规模的问题、初始状态、目标和对象集合实现泛化?
- RQ3当仅在 Gripper 和 Zenotravel 等领域上进行训练时,模型能否泛化到完全未见过的领域(如 Blocksworld)?
- RQ4在节点扩展数和规划效率方面,所学启发式方法与 $h^{max}$、$h^{add}$ 和 LM-cut 等成熟启发式方法相比表现如何?
- RQ5当应用于未见领域时,模型性能下降的程度如何?其是否仍能为搜索提供有意义的引导?
主要发现
- STRIPS-HGNs 学习到的启发式方法在训练领域上,与 $h^{max}$、$h^{add}$ 和 LM-cut 相比,A* 所需的节点扩展数具有竞争力。
- 所学启发式 $h^{HGN}$ 在已知领域内对不同问题实例(包括不同数量的对象和目标)具有良好的泛化能力。
- 在 Gripper 和 Zenotravel 上进行训练后,$h^{HGN}$ 可泛化到 Blocksworld(未见领域),其节点扩展数优于 $h^{max}$ 和盲搜。
- 对于未见领域,$h^{HGN}$ 在 Gripper 上的表现与可采纳启发式方法相当,在 Zenotravel 上优于 $h^{max}$,但劣于 $h^{add}$ 和 LM-cut。
- 启发式估计 $h^{HGN}$ 与最优计划长度的偏差仅略大于 $h^{add}$,表明其逼近质量极佳。
- 尽管结果令人鼓舞,但当前实现的推理开销较高(每次评估约 0.01–0.02 秒),提示在效率方面仍有优化空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。