QUICK REVIEW

[论文解读] Cooperative Inverse Reinforcement Learning

Dylan Hadfield-Menell, Anca D. Dragan|arXiv (Cornell University)|Jun 9, 2016

Reinforcement Learning in Robotics参考文献 25被引用 322

一句话总结

本文将协作逆强化学习（CIRL）定义为一个两代理人、部分信息的博弈，其中人类知晓奖励函数，机器人学习以最大化人类奖励，并证明最优的 CIRL 策略涉及教导与学习，可被简化为一个 POMDP；它还介绍了近似方法并分析了学徒学习与传统 IRL 的差异。

ABSTRACT

For an autonomous system to be helpful to humans and to pose no unwarranted risks, it needs to align its values with those of the humans in its environment in such a way that its actions contribute to the maximization of value for the humans. We propose a formal definition of the value alignment problem as cooperative inverse reinforcement learning (CIRL). A CIRL problem is a cooperative, partial-information game with two agents, human and robot; both are rewarded according to the human's reward function, but the robot does not initially know what this is. In contrast to classical IRL, where the human is assumed to act optimally in isolation, optimal CIRL solutions produce behaviors such as active teaching, active learning, and communicative actions that are more effective in achieving value alignment. We show that computing optimal joint policies in CIRL games can be reduced to solving a POMDP, prove that optimality in isolation is suboptimal in CIRL, and derive an approximate CIRL algorithm.

研究动机与目标

将价值对齐问题形式化为一个协作的两代理人博弈（CIRL），其中人类知道奖励函数，机器人学习以最大化人类奖励。
证明最优的 CIRL 解涉及主动教导和主动学习。
证明 CIRL 可以通过求解 POMDP 来实现化简，其中机器人对奖励参数的信念是充分统计量。
提出一种近似 CIRL 算法并分析 CIRL 内的学徒学习。
通过理论与实证结果比较基于 IRL 的方法与基于 CIRL 的教导和学习。

提出的方法

将 CIRL 定义为一个两人马尔可夫博弈，回报相同但对奖励参数信息不对称。
证明在 CIRL 中求解最优策略化简为求解 POMDP（通过协调者-POMDP 归约）。
将学徒学习刻画为 CIRL 的一个子类（ACIRL），并指出 DBE/标准 IRL 可能并非最优。
开发一种近似方法，在线性奖励假设下生成具有教导性的人类演示，以最大化对奖励的学习。
提供一个基于匹配期望特征计数并带正则化项的教导性演示的算法方案。
描述移动机器人导航域的实验，比较专家演示与最佳反应/教导性演示。

实验结果

研究问题

RQ1价值对齐如何被表述为人类与机器人之间的协作博弈（CIRL）？
RQ2为何最优的 CIRL 策略需要教导和主动学习，而不同于传统 IRL？
RQ3将 CIRL 通过归约到 POMDP 高效求解是否可行，以及对计算复杂性的含义？
RQ4在学徒学习中，演示者的行为是否更适合建模为教导性最佳反应，而非专家演示？
RQ5与 experts 演示相比，教导性演示是否提高机器人学习到的奖励函数及后续表现？

主要发现

CIRL 诱发协作式的教导与学习行为，更有效地将机器人与人类价值观对齐。
CIRL 可被化简为 POMDP，使机器人对奖励参数的信念成为最优行为的充分统计量。
谁来教、以及人类如何演示，可能显著影响学习效率和最终表现，类似 IRL 的 DBE 策略往往次优。
在实验中，最佳反应（教导性）演示在奖励推断方面表现更好、后悔度更低，优于专家演示策略。
在线性奖励下，一种简单的近似教导性演示算法通过引导机器人进入具信息性的状态来提升学习。
结果强调真实用户可能会以更高效的方式进行教导的策略性行为，挑战标准的 IRL 假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。