[论文解读] Wasserstein Adversarial Imitation Learning
本论文将学徒学习与 Optimal Transport 相结合,创建 Wasserstein Adversarial Imitation Learning (WAIL),使用 Kantorovich potentials 作为奖励,并通过 entropic regularized OT 实现从少量示范可扩展的模仿学习。
Imitation Learning describes the problem of recovering an expert policy from demonstrations. While inverse reinforcement learning approaches are known to be very sample-efficient in terms of expert demonstrations, they usually require problem-dependent reward functions or a (task-)specific reward-function regularization. In this paper, we show a natural connection between inverse reinforcement learning approaches and Optimal Transport, that enables more general reward functions with desirable properties (e.g., smoothness). Based on our observation, we propose a novel approach called Wasserstein Adversarial Imitation Learning. Our approach considers the Kantorovich potentials as a reward function and further leverages regularized optimal transport to enable large-scale applications. In several robotic experiments, our approach outperforms the baselines in terms of average cumulative rewards and shows a significant improvement in sample-efficiency, by requiring just one expert demonstration.
研究动机与目标
- 为模仿学习激励一个能够产生平滑、可解释奖励的奖励函数空间。
- 将 IRL/IL 与 Wasserstein 距离联系起来,以在专家策略和学习策略之间提供有原则的距离。
- 开发一个可扩展的算法(WAIL),使用正则化 OT 在最小化专家示范下学习策略。
- 在机器人控制任务中,通过实证证明 WAIL 在样本效率和奖励方面优于基线方法。
提出的方法
- 将学徒学习表述为最小化熵正则化的 IRL,并在占据测度 (rho_pi 与 rho_E) 之间采用 Wasserstein 距离,使用 Kantorovich potentials 作为奖励。
- 采用在状态-动作空间中的地面代价 d 的 1-Wasserstein 距离,并通过 OT 对偶中的熵正则化或 L2 正则化来强制 Lipschitz(1) 正则性。
- 将 Kantorovich potentials 参数化为奖励函数 r_w,并通过对来自专家和策略的样本的随机梯度步骤进行优化,策略通过策略梯度加熵正则化进行更新。
- 使用 TRPO 以 KL 制约的自然梯度步骤来更新策略,同时 OT 步骤更新奖励函数。
- 在 KL-step 边界条件下证明收敛性,并给出 Algorithm 1 (WAIL) 交替进行 OT 奖励更新和策略更新。
- 证明所学的奖励函数有效且比基线中的鉴别器奖励更平滑。
实验结果
研究问题
- RQ1在占据测度之间的 Wasserstein 距离是否能为模仿学习提供一个有原则且平滑的奖励信号?
- RQ2正则化的最优传输在连续控制任务中是否比基于 Jensen-Shannon 的对抗模仿方法具有更好的样本效率和性能?
- RQ3将作为奖励的 Kantorovich potentials 在无模型框架中学习并跨任务迁移是否可行?
- RQ4就专家数据需求而言,WAIL 与 Generative Adversarial Imitation Learning (GAIL) 和行为克隆相比如何?
主要发现
- 在多个控制任务中,WAIL 在平均累计奖励方面优于基线(GAIL 和 BC)。
- WAIL 显示出强的专家样本效率,通常仅用一个示例就接近专家行为。
- WAIL 学到的奖励表面比 GAIL 中基于鉴别器的奖励更平滑且信息量更丰富,尤其在数据集较小时。
- 在经典控制任务中,所有方法在一个示例下都达到近似专家的性能,而 WAIL 在 MuJoCo 环境的大多数任务和数据规模上占据优势。
- 理论结果在某些步长衰减条件下建立了算法的收敛性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。