QUICK REVIEW

[论文解读] Repeated Inverse Reinforcement Learning

Kareem Amin, Nan Jiang|arXiv (Cornell University)|May 15, 2017

Reinforcement Learning in Robotics被引用 30

一句话总结

本文提出了一种重复逆强化学习框架，其中智能体通过最小化意外行为——即引发人类示范的次优动作——来学习人类的内在奖励函数。通过在多个任务中迭代观察人类的纠正行为，智能体能够以可证明的样本效率识别出真实的奖励函数，其错误次数的上界为 Õ(d²/ε² log(d/δε))，其中 d 为状态空间大小，ε 为次优性阈值。

ABSTRACT

We introduce a novel repeated Inverse Reinforcement Learning problem: the agent has to act on behalf of a human in a sequence of tasks and wishes to minimize the number of tasks that it surprises the human by acting suboptimally with respect to how the human would have acted. Each time the human is surprised, the agent is provided a demonstration of the desired behavior by the human. We formalize this problem, including how the sequence of tasks is chosen, in a few different ways and provide some foundational results.

研究动机与目标

通过引入重复 IRL 设置，解决标准逆强化学习中奖励函数不可识别的根本性挑战。
通过学习一个不变的内在奖励函数，实现人类偏好在多样化任务间的泛化。
通过人类反馈在每次意外发生时进行纠正，最小化智能体因次优行为而让人类感到意外的次数。
为智能体在学习过程中所犯错误（即意外）的数量提供理论保证。
将框架扩展至人类反馈以部分轨迹而非完整策略形式提供的情形。

提出的方法

形式化一个重复 IRL 问题，其中智能体面对一系列具有共享内在奖励函数 θ⋆ 和任务特定分量的马尔可夫决策过程（MDPs）。
将奖励函数分解为一个不变分量（θ⋆）和任务特定分量，使智能体能够通过重复交互学习 θ⋆。
基于状态占据度量 ημ,Pπ 的策略评估框架，用于表示长期效用，并通过 Y⊤ημ,Pπ 将其与奖励函数关联。
设计一种算法（算法 1），在每次意外后更新估计的奖励函数 Θt，采用基于置信区间的更新规则，以收敛至 θ⋆。
通过聚合小批量内的错误并在周期性更新 Θt 的方式，将算法适配于基于轨迹的反馈，以增强对噪声或稀疏示范的鲁棒性。
利用对抗性任务选择策略，确保最坏情况下的性能边界，将任务环境（Et, Rt）视为由对手选择以挑战智能体。

实验结果

研究问题

RQ1智能体能否通过最小化在多个任务中意外行为的次数，来学习人类的内在奖励函数 θ⋆？
RQ2在收敛至真实奖励函数之前，智能体可能犯下的错误（意外）数量的理论上限是什么？
RQ3当人类反馈仅限于次优动作发生后的部分轨迹时，智能体如何从仅在次优行为后提供的示范中实现泛化？
RQ4当智能体可以选择任务环境和奖励时，其样本复杂度和收敛性保证是什么？
RQ5当人类反馈不是以完整策略形式提供，而是以错误状态出发的单条轨迹形式提供时，该框架是否可扩展？

主要发现

智能体能够以高概率识别出真实的内在奖励函数 θ⋆，其错误次数的上界为 Õ(d²/ε² log(d/δε))，其中 d 为状态数，ε 为次优性阈值。
当智能体可选择任务环境和奖励时，提出了一种高效的奖励识别算法，并具备可证明的收敛性保证。
在人类反馈以错误状态出发的单条轨迹形式提供的场景下，算法 2 达到了与算法 1 相同的错误次数上界，样本复杂度为 Õ(d²/ε² log(d/δε))。
该框架提供了错误次数的下界，表明上界在对数因子范围内是紧致的。
当反馈不是以完整策略形式提供，而是以单条轨迹形式提供时，通过聚合多个错误并周期性更新奖励估计，方法依然保持鲁棒性。
理论分析在对抗性任务选择下依然成立，确保了在不假设任务分布的前提下的最坏情况性能保证。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。