[论文解读] Residual Policy Learning
RPL 使用深度强化学习为任意初始策略增加可学习的残差,在长时域、稀疏奖励的机器人操控任务中提升性能和数据效率。
We present Residual Policy Learning (RPL): a simple method for improving nondifferentiable policies using model-free deep reinforcement learning. RPL thrives in complex robotic manipulation tasks where good but imperfect controllers are available. In these tasks, reinforcement learning from scratch remains data-inefficient or intractable, but learning a residual on top of the initial controller can yield substantial improvements. We study RPL in six challenging MuJoCo tasks involving partial observability, sensor noise, model misspecification, and controller miscalibration. For initial controllers, we consider both hand-designed policies and model-predictive controllers with known or learned transition models. By combining learning with control algorithms, RPL can perform long-horizon, sparse-reward tasks for which reinforcement learning alone fails. Moreover, we find that RPL consistently and substantially improves on the initial controllers. We argue that RPL is a promising approach for combining the complementary strengths of deep reinforcement learning and robotic control, pushing the boundaries of what either can achieve independently. Video and code at https://k-r-allen.github.io/residual-policy-learning/.
研究动机与目标
- 动机与解决在复杂机器人操控任务中从零学习的数据低效问题。
- 提出一个简单的残差学习框架,用以增强任意初始策略。
- 证明学习残差在不同来源的初始策略下都能提升性能。
- 在具有部分观测、噪声和模型错配的 MuJoCo 任务中展示数据效率提升和鲁棒性。
提出的方法
- 用学习得到的残差 f_theta 增强初始策略 pi,使得 pi_theta(s) = pi(s) + f_theta(s)。
- 将残差视为残差 MDP M^(pi) 中的策略,转移为 T^(pi)(s,a,s') = T(s, pi(s) + a, s').
- 使用无模型深度强化学习方法(DDPG 与 HER)来学习 f_theta,最后一层初始化为零以保留 pi。
- 在预热阶段可选地固定 critic,以在初始策略较强而 critic 稳健性滞后时稳定学习。
- 在需要时,通过短状态历史扩展到用于 POMDP 的循环策略。
- 与基线进行比较,包括仅初始策略、从零开始学习(DDPG+HER)以及 Expert-Explore 变体,以隔离探索的收益。
实验结果
研究问题
- RQ1残差策略学习是否能在各种初始策略(手工设计、MPC 或缓存的模型基控制器)上持续改善?
- RQ2在长时域、稀疏奖励的机器人任务中,RPL 是否比从零开始学习更具数据效率?
- RQ3在部分观测、传感器噪声和模型错配下,RPL 的表现如何?
- RQ4残差策略是否在纠正失败的同时保持良好初始策略的性能?
- RQ5在实际应用中,RPL 能否超越或补充基于模型的强化学习方法?
主要发现
- RPL 在六个 MuJoCo 操作任务上显著提升初始策略。
- 在许多情况下,RPL 的收敛所需样本显著少于从零开始学习(例如,在 PickAndPlace 任务大约少 10 倍样本)。
- RPL 对传感器噪声和结构化不确定性具有鲁棒性,在基线失败的情境下实现高成功率。
- RPL 可超越基于模型的 RL 基线(PETS),并在搭载基于模型的控制器(CachedPETS)时加速收敛。
- Expert-Explore 基线显示探索能力提升,但未充分解释 RPL 的数据效率,表明残差参数化与初始化带来额外收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。