[论文解读] Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)
论文主张通过学习每个领域的Q值函数来泛化规划域的策略,展示纯监督学习在区分教师行动与非教师行动上失败,提出显式与启发式两种正则化器以强化区分,并证明带正则化的Q值策略在10个域和多种GNN体系结构下优于状态值策略,并在与LAMA-first的对比中具竞争力。
Learning per-domain generalizing policies is a key challenge in learning for planning. Standard approaches learn state-value functions represented as graph neural networks using supervised learning on optimal plans generated by a teacher planner. In this work, we advocate for learning Q-value functions instead. Such policies are drastically cheaper to evaluate for a given state, as they need to process only the current state rather than every successor. Surprisingly, vanilla supervised learning of Q-values performs poorly as it does not learn to distinguish between the actions taken and those not taken by the teacher. We address this by using regularization terms that enforce this distinction, resulting in Q-value policies that consistently outperform state-value policies across a range of 10 domains and are competitive with the planner LAMA-first.
研究动机与目标
- 为规划域学习具备领域泛化能力的策略提供动机。
- 主张使用Q值函数学习以代替状态值函数以提高效率。
- 识别 vanilla 监督学习对Q值的失败原因并提出正则化来修复。
- 展示在多种GNN架构和域上的可扩展性与泛化收益。
提出的方法
- 将经典规划状态表示为图,并使用三种GNN架构:R-GNN、OE 与 OAE。
- 通过以最优计划作为监督信号进行监督学习来训练Q值。
- 证明 vanilla SL 会导致教师行动与非教师行动的Q值不可区分。
- 引入两种正则化项,显式与启发式,以强制Q(s,a_i) > Q(s,a*).
- 在10个域中将带正则化的Q值与状态值以及LAMA-first进行对比。
实验结果
研究问题
- RQ1是否可以从最优计划中学习Q值函数以泛化每-domain的策略?
- RQ2为何 vanilla 监督学习对Q值无效,正则化是否可以修正?
- RQ3带正则化的Q值策略在跨域上的可扩展性和泛化是否优于状态值策略?
- RQ4不同GNN架构对带正则化的Q值策略性能有何影响?
主要发现
- 使用 vanilla SL 训练的Q值策略泛化能力差,因为对所有行动的Q值几乎相同,导致随意选择行动。
- 通过显式或启发式正则化使非教师行动的Q值高于教师行动,显著提高泛化能力。
- 带正则化的Q值策略在10个域上优于状态值策略,并在IPC’23测试集上与LAMA-first具备竞争力。
- 启发式正则化通常能获得更紧的界,并在若干域上优于显式正则化。
- 在三种GNN架构(R-GNN、OE、OAE)下,带正则化的Q值策略表现出更好的扩展性和在IPC’23测试中的覆盖率高于非正则化基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。