Skip to main content
QUICK REVIEW

[论文解读] Identifying Reward Functions using Anchor Actions.

Sinong Geng, Houssam Nassif|arXiv (Cornell University)|Jul 15, 2020
Reinforcement Learning in Robotics参考文献 39被引用 2
一句话总结

本文提出PQR,一种新颖的逆强化学习框架,通过依次学习策略、Q函数和奖励函数,利用已知的锚定动作(例如“不做任何事”)实现奖励估计,即使在奖励依赖于状态和动作且转移具有随机性的情况下也能实现。该方法在已知转移情况下确保奖励的唯一恢复,并在转移未知时提供误差界。

ABSTRACT

We propose a reward function estimation framework for inverse reinforcement learning with deep energy-based policies. We name our method PQR, as it sequentially estimates the Policy, the $Q$-function, and the Reward function. PQR does not assume that the reward solely depends on the state, instead it allows for a dependency on the choice of action. Moreover, PQR allows for stochastic state transitions. To accomplish this, we assume the existence of one anchor action whose reward is known, typically the action of doing nothing, yielding no reward. We present both estimators and algorithms for the PQR method. When the environment transition is known, we prove that the PQR reward estimator uniquely recovers the true reward. With unknown transitions, we bound the estimation error of PQR. Finally, the performance of PQR is demonstrated by synthetic and real-world datasets.

研究动机与目标

  • 解决现有逆强化学习方法仅假设奖励依赖于状态的局限性,允许奖励依赖于状态和动作。
  • 在具有随机状态转移的环境中实现奖励函数估计,此类环境在现实世界中普遍存在。
  • 提供一种理论基础扎实的方法,在环境转移已知时唯一恢复真实奖励函数。
  • 在转移未知时,对奖励函数的估计误差提供理论界,确保在实际应用中的鲁棒性。
  • 在合成数据集和真实世界数据集上展示该方法的有效性。

提出的方法

  • PQR框架使用深度能量基策略模型,依次估计策略、Q函数和奖励函数。
  • 引入一个锚定动作——通常为“不做任何事”的动作——其奖励被假设为零,作为奖励估计的参考点。
  • 该方法将奖励建模为状态和动作的函数,从而支持更丰富、更真实的奖励结构。
  • 在已知转移的情况下,证明PQR奖励估计器能唯一恢复真实奖励函数。
  • 在转移未知的情况下,该方法推导出奖励函数估计误差的理论界。
  • 该框架采用联合优化方案,利用锚定动作稳定并引导奖励函数的学习。

实验结果

研究问题

  • RQ1我们能否在逆强化学习中估计依赖于状态和动作而非仅状态的奖励函数?
  • RQ2当环境转移已知时,如何确保真实奖励函数的唯一恢复?
  • RQ3当转移未知时,奖励函数的估计误差界是什么?
  • RQ4该方法能否有效处理随机状态转移?
  • RQ5与现有基线方法相比,PQR框架在真实世界和合成环境中的表现如何?

主要发现

  • 当环境转移已知时,PQR方法能唯一恢复真实奖励函数,确保理论正确性。
  • 当转移未知时,该方法为奖励函数的估计误差提供了理论界,增强了可靠性。
  • 该框架成功估计了具有随机转移环境中的奖励函数,表现出强鲁棒性。
  • 在合成数据集和真实世界数据集上的实证评估证实了PQR的有效性与泛化能力。
  • 使用锚定动作(例如“不做任何事”)实现了稳定且精确的奖励估计,且无需事先知晓奖励函数。
  • 该方法在恢复依赖于状态和动作的复杂奖励函数方面优于基线方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。