Skip to main content
QUICK REVIEW

[论文解读] Regret-based Reward Elicitation for Markov Decision Processes

Kevin Regan, Craig Boutilier|Uncertainty in Artificial Intelligence|May 9, 2012
Reinforcement Learning in Robotics参考文献 20被引用 58
一句话总结

本文提出了一种基于遗憾的奖励获取框架,用于马尔可夫决策过程(MDPs),通过使用边界查询迭代最小化遗憾,减少了对精确奖励函数指定的需求。通过利用最小最大遗憾准则,并基于预期遗憾减少来选择查询,该方法能以最少的用户输入高效识别近似最优策略,在经验评估中显著优于完整奖励指定。

ABSTRACT

The specification of aMarkov decision process (MDP) can be difficult. Reward function specification is especially problematic; in practice, it is often cognitively complex and time-consuming for users to precisely specify rewards. This work casts the problem of specifying rewards as one of preference elicitation and aims to minimize the degree of precision with which a reward function must be specified while still allowing optimal or near-optimal policies to be produced. We first discuss how robust policies can be computed for MDPs given only partial reward information using the minimax regret criterion. We then demonstrate how regret can be reduced by efficiently eliciting reward information using bound queries, using regret-reduction as a means for choosing suitable queries. Empirical results demonstrate that regret-based reward elicitation offers an effective way to produce near-optimal policies without resorting to the precise specification of the entire reward function.

研究动机与目标

  • 解决在MDPs中精确指定奖励函数的认知负担。
  • 在仍能实现最优或近似最优策略学习的同时,最小化用户所需提供的奖励信息量。
  • 开发一种以遗憾为度量来指导查询选择的偏好获取框架。
  • 证明迭代式查询获取方法可在无需完整奖励指定的情况下生成接近最优的策略。

提出的方法

  • 该方法使用最小最大遗憾准则,在部分奖励信息下计算鲁棒策略。
  • 其形式化了约束状态-动作对可能奖励值范围的边界查询。
  • 基于其在最坏情况下遗憾的预期减少量来选择查询,优先选择能最紧密约束最优策略遗憾的查询。
  • 该算法通过用户反馈迭代地细化奖励边界,每一步均更新策略和遗憾估计。
  • 采用线性规划来计算最小最大遗憾策略并优化查询选择。
  • 通过建模奖励中的不确定性并动态选择信息丰富的查询,将用户交互整合到框架中。

实验结果

研究问题

  • RQ1偏好获取框架是否能在保持策略质量的同时,减少MDPs中对精确奖励指定的需求?
  • RQ2如何有效利用遗憾作为准则来指导奖励获取中信息性查询的选择?
  • RQ3边界查询在多大程度上能减少遗憾并提升策略性能,同时仅需最少的用户输入?
  • RQ4与随机或启发式查询策略相比,基于遗憾的查询选择在收敛速度和策略质量方面表现如何?

主要发现

  • 基于遗憾的获取框架显著减少了所需奖励查询的数量,仅需最少的用户努力即可实现近似最优策略。
  • 实证结果表明,基于遗憾的查询选择在收敛速度和最坏情况遗憾方面均优于其他查询策略。
  • 在测试环境中,使用获取的奖励边界计算出的策略性能与最优策略相差不足1%。
  • 该方法在不确定性下保持鲁棒性,即使奖励信息不完整,最小最大遗憾策略仍保持有效性。
  • 使用边界查询可高效探索奖励空间,降低策略重新计算的计算开销。
  • 用户反馈被高效利用,每次查询均在遗憾减少方面提供最大信息增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。