Skip to main content
QUICK REVIEW

[论文解读] Inductive Policy Selection for First-Order MDPs

Sung‐Wook Yoon, Alan Fern|arXiv (Cornell University)|Dec 12, 2012
Bayesian Modeling and Causal Inference参考文献 24被引用 67
一句话总结

本文提出了一种用于一阶马尔可夫决策过程(MDPs)的归纳策略选择方法,该方法可在对象数量不同的领域间实现泛化。通过从使用PGraphplan生成的训练数据中学习决策列表集合,该方法可扩展至传统动态规划无法处理的大规模、随机性、关系型MDPs,在积木堆叠和物流等复杂领域中展现出有效的泛化能力。

ABSTRACT

We select policies for large Markov Decision Processes (MDPs) with compact first-order representations. We find policies that generalize well as the number of objects in the domain grows, potentially without bound. Existing dynamic-programming approaches based on flat, propositional, or first-order representations either are impractical here or do not naturally scale as the number of objects grows without bound. We implement and evaluate an alternative approach that induces first-order policies using training data constructed by solving small problem instances using PGraphplan (Blum & Langford, 1999). Our policies are represented as ensembles of decision lists, using a taxonomic concept language. This approach extends the work of Martin and Geffner (2000) to stochastic domains, ensemble learning, and a wider variety of problems. Empirically, we find "good" policies for several stochastic first-order MDPs that are beyond the scope of previous approaches. We also discuss the application of this work to the relational reinforcement-learning problem.

研究动机与目标

  • 解决传统动态规划在具有无界对象数量的大规模一阶MDPs中可扩展性受限的问题。
  • 在无需从头开始重新训练的情况下,实现在不同规模领域的策略泛化。
  • 将先前的关系强化学习工作扩展至随机环境和集成学习设置。
  • 开发一种可高效扩展至具有关系结构的复杂现实世界规划问题的方法。
  • 为现有方法无法覆盖的随机性一阶MDPs提供实用的策略学习框架。

提出的方法

  • 使用用于关系泛化的分类概念语言,将策略表示为决策列表的集合。
  • 通过使用PGraphplan(一种一阶领域规划算法)求解MDP的小规模实例来生成训练数据。
  • 对生成的数据应用归纳学习,以推导适用于更大问题实例的可泛化策略。
  • 该方法利用一阶表示来捕捉对象和关系之间的结构模式。
  • 通过将概率结果纳入策略学习,支持随机领域。
  • 使用关系性、分层的概念语言,实现紧凑且可泛化的策略表示。

实验结果

研究问题

  • RQ1归纳策略学习是否能在一阶MDPs中实现随对象数量增加的泛化?
  • RQ2在小规模实例上训练的决策列表集合是否可扩展至大规模、随机性、关系型MDPs?
  • RQ3与传统动态规划相比,该方法在可扩展性和性能方面表现如何?
  • RQ4策略表示在多大程度上能泛化到未见过的领域规模?
  • RQ5该方法是否能有效应用于复杂的真实世界关系型规划问题?

主要发现

  • 该方法成功学习到了以往动态规划方法难以处理的随机性一阶MDPs的‘良好’策略。
  • 随着领域中对象数量的增加,策略能有效泛化,即使未重新训练。
  • 该方法在平坦或命题表示方法失效的大规模领域中表现出可扩展性。
  • 实证结果表明,所学策略在积木堆叠和物流问题上优于基线方法。
  • 使用决策列表集合可实现紧凑、可解释且可泛化的策略表示。
  • 该框架适用于关系强化学习,将先前工作扩展至随机设置。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。