[论文解读] Rewriting History with Inverse RL: Hindsight Inference for Policy Improvement
这篇论文表明 hindsight relabeling 是逆强化学习,并提出 HIPI,一个通过逆RL重标记过去经验来在多任务学习中加速学习的框架,通过 off-policy RL (HIPI-RL) 或行为克隆 (HIPI-BC)。
Multi-task reinforcement learning (RL) aims to simultaneously learn policies for solving many tasks. Several prior works have found that relabeling past experience with different reward functions can improve sample efficiency. Relabeling methods typically ask: if, in hindsight, we assume that our experience was optimal for some task, for what task was it optimal? In this paper, we show that hindsight relabeling is inverse RL, an observation that suggests that we can use inverse RL in tandem for RL algorithms to efficiently solve many tasks. We use this idea to generalize goal-relabeling techniques from prior work to arbitrary classes of tasks. Our experiments confirm that relabeling data using inverse RL accelerates learning in general multi-task settings, including goal-reaching, domains with discrete sets of rewards, and those with linear reward functions.
研究动机与目标
- 通过在任意定义的任务中重用过去经验来提升多任务 RL 的样本效率的动机。
- 将 hindsight relabeling 正式化为逆 RL,并将 MaxEnt RL 与 MaxEnt inverse RL 视为对偶问题。
- 开发实用的 HIPI 算法,对轨迹或转移进行重标记,并利用它们在任务族中学习策略。
- 展示对目标达到和包括离散与线性奖励任务的通用奖励结构的适用性。
提出的方法
- 将重标记框架描述为计算 MaxEnt inverse RL 后验 p(ψ|τ),并用它来重标记轨迹。
- 推导出最优的重标记分布 q(ψ|τ) ∝ p(ψ) exp(Σt rψ(st,at) − log Z(ψ))。
- 显示 MaxEnt RL 和 MaxEnt inverse RL 在多任务目标上优化相同对象,但分别对轨迹或任务。
- 将目标重标记特殊化为退化的 inverse RL 情况,其中当最终状态 ≠ ψ 时 rψ 为无穷大,其他情况为 0。
- 引入两种 HIPI 变体:HIPI-RL(逆 RL 重标记+离策略 RL)和 HIPI-BC(逆 RL 重标记+面向任务的行为克隆)。
- 算法细节包括计算分区函数 Z(ψ) 并使用以轨迹数据为条件的 ψ 的 softmax 采样。
实验结果
研究问题
- RQ1逆 RL 基于重标记能否提升广义多任务 RL 问题的样本效率,超出目标达成任务?
- RQ2与先前的重标记策略(如 HER)相比,在包括线性与离散奖励的不同任务分布中,逆 RL 重标记表现如何?
- RQ3将逆 RL 重标记与离策略 RL 或行为克隆结合,是否能在复杂的移动和操作任务上可靠地加速学习?
- RQ4分区函数 Z(ψ) 在在不同奖励尺度的任务上稳定重标记中扮演何种角色?
主要发现
- 逆 RL 重标记在目标达成、离散奖励、线性奖励任务上都能加速学习。
- 两种实用的 HIPI 变体(HIPI-RL 与 HIPI-BC)在多个人工仿真机器人领域超越基线。
- 分区函数归一化至关重要;若没有它,重标记可能将轨迹错误地分配给更容易的任务,妨碍学习。
- 重标记在一系列任务分布中提高渐近性能和样本效率,包括通用奖励结构。
- 目标重标记是逆 RL 的一个特殊情况,使其扩展到超出目标的任意任务族成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。