Skip to main content
QUICK REVIEW

[论文解读] Action Schema Networks: Generalised Policies with Deep Learning

Sam Toyer, Felipe Trevizan|arXiv (Cornell University)|Sep 13, 2017
AI-based Problem Solving and Planning被引用 27
一句话总结

本文提出动作模式网络(ASNet),一种深度学习架构,通过利用动作与命题之间的关系结构及参数共享,学习概率规划问题的泛化策略。该方法可在同一领域的问题间实现迁移学习,并通过结合探索与监督学习的混合训练方法,在复杂领域中超越传统规划器的性能表现。

ABSTRACT

In this paper, we introduce the Action Schema Network (ASNet): a neural network architecture for learning generalised policies for probabilistic planning problems. By mimicking the relational structure of planning problems, ASNets are able to adopt a weight-sharing scheme which allows the network to be applied to any problem from a given planning domain. This allows the cost of training the network to be amortised over all problems in that domain. Further, we propose a training method which balances exploration and supervised training on small problems to produce a policy which remains robust when evaluated on larger problems. In experiments, we show that ASNet's learning capability allows it to significantly outperform traditional non-learning planners in several challenging domains.

研究动机与目标

  • 开发一种神经网络架构,使策略可在同一规划领域内的不同问题实例间泛化,而无需重新训练。
  • 实现共享相同模式或谓词的动作与命题模块之间的参数共享,以提升参数效率与可迁移性。
  • 设计一种结合探索与监督学习的训练方法,利用现有规划器在小型问题上的解,生成在更大规模问题上表现稳健的策略。
  • 证明深度学习可有效学习概率规划的泛化策略,并超越非学习型规划器。
  • 提供一种可直接从PPDDL表示进行端到端训练的框架,避免手动进行视觉编码的需要。

提出的方法

  • ASNet是一种基于图的神经网络,其在动作与命题的关系结构上运行,其中边表示因果或依赖关系(例如,动作影响命题)。
  • 其采用类似卷积的讯息传递机制,每个动作或命题模块在多层中聚合来自邻居的信息,从而扩大其感受野。
  • 通过强制所有相同动作模式或命题谓词的实例共享参数,实现同一领域内不同问题实例间的泛化。
  • 输入特征包括与领域无关的规划启发式方法(如fast-downward),以引导学习过程并提升在大规模问题上的性能。
  • 采用混合训练策略,在强化学习(探索)与基于小型问题上已有规划器解的监督微调之间交替进行。
  • 该架构被训练以预测状态下的动作概率,损失函数为可微分形式,支持端到端训练。

实验结果

研究问题

  • RQ1能否设计一种深度神经网络架构,使其在相同规划领域内的不同问题实例间实现泛化?
  • RQ2如何有效实现动作与命题模块间的参数共享,以在规划任务中实现迁移学习?
  • RQ3结合探索与监督学习的混合训练机制,能否生成在更大、未见问题上仍具鲁棒性的策略?
  • RQ4ASNet在复杂概率规划领域中,相较于传统非学习型规划器,其性能提升程度如何?
  • RQ5该网络能否直接从PPDDL表示中学习有效策略,而无需人工设计的视觉编码?

主要发现

  • ASNet成功学习到可直接应用于给定规划领域内任意问题的泛化策略,而无需重新训练,其性能显著优于非学习型规划器。
  • 混合训练方法——平衡探索与监督微调——生成的策略在更大规模问题上仍保持鲁棒且高效。
  • ASNet在多个具有挑战性的领域中,超越了当前最先进的经典与概率规划器,证明了深度学习在规划任务中的有效性。
  • 将与领域无关的启发式方法作为输入特征,显著提升了模型在复杂问题上的泛化能力与性能表现。
  • 由于其关系归纳偏置与参数共享机制,ASNet能有效泛化到不同规模与结构的问题。
  • 即使目标无法以概率1达成,该模型依然有效,因其通过代价惩罚与策略学习机制,能够有效避免死胡同。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。