QUICK REVIEW

[论文解读] Truncated Horizon Policy Search: Combining Reinforcement Learning & Imitation Learning

Wen Sun, J. Andrew Bagnell|arXiv (Cornell University)|Feb 15, 2018

Reinforcement Learning in Robotics参考文献 22被引用 38

一句话总结

本文提出截断地平线策略搜索（THOR），通过使用次优的代价到终点估计器（cost-to-go oracle）来塑造奖励，将模仿学习（IL）与强化学习（RL）相结合。通过根据估计器的准确性截断规划时域，THOR 实现了比纯 RL 或 IL 基线更快、更样本高效的训练，即使在专家信息不完美时也能取得更优性能。

ABSTRACT

In this paper, we propose to combine imitation and reinforcement learning via the idea of reward shaping using an oracle. We study the effectiveness of the near-optimal cost-to-go oracle on the planning horizon and demonstrate that the cost-to-go oracle shortens the learner's planning horizon as function of its accuracy: a globally optimal oracle can shorten the planning horizon to one, leading to a one-step greedy Markov Decision Process which is much easier to optimize, while an oracle that is far away from the optimality requires planning over a longer horizon to achieve near-optimal performance. Hence our new insight bridges the gap and interpolates between imitation learning and reinforcement learning. Motivated by the above mentioned insights, we propose Truncated HORizon Policy Search (THOR), a method that focuses on searching for policies that maximize the total reshaped reward over a finite planning horizon when the oracle is sub-optimal. We experimentally demonstrate that a gradient-based implementation of THOR can achieve superior performance compared to RL baselines and IL baselines even when the oracle is sub-optimal.

研究动机与目标

通过结合两者的优点，弥合模仿学习（IL）与强化学习（RL）之间的差距。
解决 IL 的局限性，即当专家表现次优时，策略性能被限制在专家水平。
开发一种利用专家代价到终点估计来加速学习并实现超越专家性能的方法。
证明基于估计器准确性截断规划时域可提升样本效率与性能。

提出的方法

该方法使用代价到终点估计器（ˆVe）通过基于势能的奖励塑造，重构原始 MDP 的代价函数。
引入长度为 k 的截断规划时域，其中 k 根据估计器相对于最优值函数 V* 的准确性进行选择。
对于离散 MDP，该方法在数学上保证所得策略优于专家，且性能差距可量化。
在实践中，采用基于梯度的策略搜索算法，使其适用于连续状态与动作空间。
该方法允许使用复杂的函数逼近器，并可与现有 RL 算法（如 TRPO-GAE）结合使用。
估计器 ˆVe 通常通过在专家演示上使用时序差分学习预先训练得到，但在线更新也是可行的。

实验结果

研究问题

RQ1代价到终点估计器的准确性在多大程度上影响策略学习中的有效规划时域？
RQ2当与 IL 结合时，截断规划时域是否能提升样本效率与性能？
RQ3使用次优估计器进行代价塑造是否能使策略性能超越纯 IL 与 RL 基线？
RQ4在估计器不完美时，为平衡偏差、方差与性能，最优截断长度 k 是多少？

主要发现

在 Acrobot 与 Mountain Car 环境中，THOR（k > 1）显著优于 AGGREVATED（k = 1），尤其在均值 ± 标准差指标上表现更优，表明其鲁棒性与性能更佳。
在 Hopper 与 Swimmer 等稀疏奖励环境中，当 k ≈ 20–30% 的完整时域 H 时，THOR 的性能优于 TRPO-GAE 与 AGGREVATED。
由于策略梯度估计中回溯长度更短，THOR 显著降低了不同运行间策略性能的方差，尤其在稀疏奖励设置中表现明显。
即使 ˆVe 不够完美，当 k = H（完整时域）时，THOR 仍优于 TRPO-GAE，证实了通过估计器进行奖励塑造的有效性。
在所有测试环境中，THOR 的学习收敛速度均快于 TRPO-GAE，包括将时域扩展至 H = 200 或 H = 1000 的情况。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。