Skip to main content
QUICK REVIEW

[论文解读] Black-Box Policy Search with Probabilistic Programs

Jan-Willem van de Meent, Brooks Paige|arXiv (Cornell University)|Jul 16, 2015
Reinforcement Learning in Robotics参考文献 45被引用 19
一句话总结

本文提出黑箱策略学习(BBPL),一种将策略表示为概率程序并使用黑箱变分推断(BBVI)对策略参数进行端到端学习的方法,通过在边缘似然上执行随机梯度上升来优化策略。该方法实现了在复杂序列决策问题中的模型无关、自动策略学习,在加拿大旅行者问题、RockSample和Guess Who等任务中均展现出优于基线方法的性能。

ABSTRACT

In this work, we explore how probabilistic programs can be used to represent policies in sequential decision problems. In this formulation, a probabilistic program is a black-box stochastic simulator for both the problem domain and the agent. We relate classic policy gradient techniques to recently introduced black-box variational methods which generalize to probabilistic program inference. We present case studies in the Canadian traveler problem, Rock Sample, and a benchmark for optimal diagnosis inspired by Guess Who. Each study illustrates how programs can efficiently represent policies using moderate numbers of parameters.

研究动机与目标

  • 开发一种通用框架,用于在序列决策问题中表示和学习参数化策略。
  • 将黑箱变分推断(BBVI)与策略搜索相结合,实现无需领域特定算法设计的自动参数学习。
  • 证明概率程序能够以紧凑且表达力强的方式表示复杂策略,同时支持高效、模型无关的学习。
  • 在经典的强化学习和最优诊断问题上评估该方法,结果表明其性能优于标准基线方法。

提出的方法

  • 使用可调参数的随机程序表示策略,采用概率编程语法定义动作选择策略。
  • 将策略学习表述为边缘似然最大化问题,将奖励视为贝叶斯模型中似然权重。
  • 应用黑箱变分推断(BBVI)在边缘似然上执行随机梯度上升,实现策略参数的端到端学习。
  • 使用推理摊销技术,实现在无需对策略内部逻辑进行梯度计算的前提下高效学习。
  • 在概率编程系统(Anglican)中实现该框架,通过基于梯度的优化实现自动推理和参数学习。
  • 利用概率程序的结构嵌入领域特定假设,从而在保持表达力的同时缩小搜索空间。

实验结果

研究问题

  • RQ1概率程序能否以紧凑且表达力强的方式表示一大类参数化策略?
  • RQ2黑箱变分推断如何被适配以在任意随机模拟器中执行策略搜索?
  • RQ3该方法在具有部分可观测性的结构化决策问题中能否超越标准策略梯度和启发式基线方法?
  • RQ4通过程序结构编码领域知识,所学策略在多大程度上能实现跨任务的泛化?
  • RQ5该方法在高维或复杂策略空间中的学习效率和性能表现如何?

主要发现

  • BBPL方法在加拿大旅行者问题中成功学习到有效策略,通过学习边的偏好,能够自适应地应对道路阻塞,实现接近最优的性能。
  • 在RockSample任务中,所学策略展现出结构化行为——在5×5场景中优先访问左上角岩石,而在10×10场景中沿最左侧岩石路径执行确定性路径。
  • 在Guess Who任务中,所学策略优于随机策略和仅考虑即时信息增益的贪心基线,表明即使采用简单启发式策略并学习权重,也能超越标准方法。
  • 该方法在独立训练运行中均实现奖励收敛,且性能稳定,表明其具有鲁棒性和稳定的训练过程。
  • 使用概率程序实现了简洁的策略表示和无需硬编码决策逻辑的自动参数学习,充分体现了该框架的通用性与表达力。
  • 结果表明,将概率编程与BBVI结合,为结构化、部分可观测环境中的传统策略梯度方法提供了一种可扩展且灵活的替代方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。