QUICK REVIEW

[论文解读] Action Schema Networks: Generalised Policies with Deep Learning

Sam Toyer, Felipe Trevizan|arXiv (Cornell University)|Sep 13, 2017

AI-based Problem Solving and Planning被引用 27

一句话总结

本文提出动作模式网络（ASNet），一种深度学习架构，通过利用动作与命题之间的关系结构及参数共享，学习概率规划问题的泛化策略。该方法可在同一领域的问题间实现迁移学习，并通过结合探索与监督学习的混合训练方法，在复杂领域中超越传统规划器的性能表现。

ABSTRACT

In this paper, we introduce the Action Schema Network (ASNet): a neural network architecture for learning generalised policies for probabilistic planning problems. By mimicking the relational structure of planning problems, ASNets are able to adopt a weight-sharing scheme which allows the network to be applied to any problem from a given planning domain. This allows the cost of training the network to be amortised over all problems in that domain. Further, we propose a training method which balances exploration and supervised training on small problems to produce a policy which remains robust when evaluated on larger problems. In experiments, we show that ASNet's learning capability allows it to significantly outperform traditional non-learning planners in several challenging domains.

研究动机与目标

开发一种神经网络架构，使策略可在同一规划领域内的不同问题实例间泛化，而无需重新训练。
实现共享相同模式或谓词的动作与命题模块之间的参数共享，以提升参数效率与可迁移性。
设计一种结合探索与监督学习的训练方法，利用现有规划器在小型问题上的解，生成在更大规模问题上表现稳健的策略。
证明深度学习可有效学习概率规划的泛化策略，并超越非学习型规划器。
提供一种可直接从PPDDL表示进行端到端训练的框架，避免手动进行视觉编码的需要。

提出的方法

ASNet是一种基于图的神经网络，其在动作与命题的关系结构上运行，其中边表示因果或依赖关系（例如，动作影响命题）。
其采用类似卷积的讯息传递机制，每个动作或命题模块在多层中聚合来自邻居的信息，从而扩大其感受野。
通过强制所有相同动作模式或命题谓词的实例共享参数，实现同一领域内不同问题实例间的泛化。
输入特征包括与领域无关的规划启发式方法（如fast-downward），以引导学习过程并提升在大规模问题上的性能。
采用混合训练策略，在强化学习（探索）与基于小型问题上已有规划器解的监督微调之间交替进行。
该架构被训练以预测状态下的动作概率，损失函数为可微分形式，支持端到端训练。

实验结果

研究问题

RQ1能否设计一种深度神经网络架构，使其在相同规划领域内的不同问题实例间实现泛化？
RQ2如何有效实现动作与命题模块间的参数共享，以在规划任务中实现迁移学习？
RQ3结合探索与监督学习的混合训练机制，能否生成在更大、未见问题上仍具鲁棒性的策略？
RQ4ASNet在复杂概率规划领域中，相较于传统非学习型规划器，其性能提升程度如何？
RQ5该网络能否直接从PPDDL表示中学习有效策略，而无需人工设计的视觉编码？

主要发现

ASNet成功学习到可直接应用于给定规划领域内任意问题的泛化策略，而无需重新训练，其性能显著优于非学习型规划器。
混合训练方法——平衡探索与监督微调——生成的策略在更大规模问题上仍保持鲁棒且高效。
ASNet在多个具有挑战性的领域中，超越了当前最先进的经典与概率规划器，证明了深度学习在规划任务中的有效性。
将与领域无关的启发式方法作为输入特征，显著提升了模型在复杂问题上的泛化能力与性能表现。
由于其关系归纳偏置与参数共享机制，ASNet能有效泛化到不同规模与结构的问题。
即使目标无法以概率1达成，该模型依然有效，因其通过代价惩罚与策略学习机制，能够有效避免死胡同。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。