Skip to main content
QUICK REVIEW

[论文解读] Policy Improvement for POMDPs Using Normalized Importance Sampling

Christian R. Shelton|arXiv (Cornell University)|Jan 10, 2013
Machine Learning and Algorithms参考文献 12被引用 41
一句话总结

本文提出了一种用于部分可观察马尔可夫决策过程(POMDPs)策略改进的归一化重要性采样估计器,可在无需环境先验知识的情况下实现离策略评估。该方法允许使用低方差、有偏估计进行高效的策略搜索,适用于成对比较,与贪婪搜索算法中的REINFORCE相比,试验次数减少了一个数量级。

ABSTRACT

We present a new method for estimating the expected return of a POMDP from experience. The method does not assume any knowledge of the POMDP and allows the experience to be gathered from an arbitrary sequence of policies. The return is estimated for any new policy of the POMDP. We motivate the estimator from function-approximation and importance sampling points-of-view and derive its theoretical properties. Although the estimator is biased, it has low variance and the bias is often irrelevant when the estimator is used for pair-wise comparisons. We conclude by extending the estimator to policies with memory and compare its performance in a greedy search algorithm to REINFORCE algorithms showing an order of magnitude reduction in the number of trials required.

研究动机与目标

  • 开发一种利用在任意策略下收集的经验来估计POMDP策略期望回报的方法。
  • 在无需模型知识或在线策略滚动的情况下,实现POMDP中的策略改进。
  • 在保持实际可用性的同时,降低离策略策略评估中的方差,尽管存在偏差。
  • 将估计器扩展至处理具有记忆的策略,以提升在序列决策任务中的适用性。
  • 在贪婪策略搜索中,与基于REINFORCE的方法相比,实现更优的样本效率。

提出的方法

  • 该方法使用归一化重要性采样,从行为策略下收集的经验中估计目标策略的期望回报。
  • 从函数逼近和重要性采样两个角度推导估计器,以确保理论基础稳固。
  • 该估计器具有偏差但方差较低,适用于策略迭代中的成对策略比较。
  • 通过引入依赖历史的动作选择,将该方法扩展至处理具有记忆的策略。
  • 将估计器集成到贪婪策略搜索算法中,替代传统的REINFORCE式更新。
  • 该方法支持离策略学习,即行为策略与目标策略不同,从而可重用已有经验。

实验结果

研究问题

  • RQ1能否在无需模型知识的前提下,构建一种用于POMDP策略评估的低方差、离策略估计器?
  • RQ2归一化重要性采样估计器在POMDP策略改进的实际应用中表现如何?
  • RQ3与REINFORCE相比,该估计器在贪婪策略搜索中在多大程度上降低了样本复杂度?
  • RQ4该估计器能否扩展至处理POMDP中的记忆型策略?
  • RQ5在用于成对策略比较时,估计器中的偏差在实际中是否具有显著影响?

主要发现

  • 与标准重要性采样相比,归一化重要性采样估计器在POMDP的离策略评估中显著降低了方差。
  • 尽管存在偏差,该估计器的偏差在实践中通常可忽略不计,尤其是在用于策略比较时。
  • 该方法可利用在任意策略下收集的经验实现有效的策略改进,而无需进行在线策略滚动。
  • 在贪婪策略搜索中,所提方法相比REINFORCE将所需试验次数减少了整整一个数量级。
  • 该估计器成功扩展至具有记忆的策略,在序列决策任务中保持了稳定性和性能。
  • 实验结果表明,该估计器在样本效率方面优于REINFORCE,同时保持了可靠的策略改进能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。