[论文解读] Self-Supervised Policy Adaptation during Deployment
PAD 使预训练策略在部署期间在无奖励的情况下继续自监督适应,从而提升在仿真和真实机器人中对未见环境变化的泛化能力。
In most real world scenarios, a policy trained by reinforcement learning in one environment needs to be deployed in another, potentially quite different environment. However, generalization across different environments is known to be hard. A natural solution would be to keep training after deployment in the new environment, but this cannot be done if the new environment offers no reward signal. Our work explores the use of self-supervision to allow the policy to continue training after deployment without using any rewards. While previous methods explicitly anticipate changes in the new environment, we assume no prior knowledge of those changes yet still obtain significant improvements. Empirical evaluations are performed on diverse simulation environments from DeepMind Control suite and ViZDoom, as well as real robotic manipulation tasks in continuously changing environments, taking observations from an uncalibrated camera. Our method improves generalization in 31 out of 36 environments across various tasks and outperforms domain randomization on a majority of environments.
研究动机与目标
- 推动将强化学习代理部署到未见环境时的稳健策略泛化。
- 提出在部署期间无需奖励即可运行的自监督适应信号。
- 演示在多样的仿真和真实世界任务中泛化能力的提升。
提出的方法
- 将策略网络分割为特征提取器和任务头,以共享表示。
- 在中间特征上使用辅助自监督任务(反向动力学或旋转预测)。
- 在训练时同时使用 RL 目标和自监督目标进行训练;部署时仅使用自监督进行适应。
- 在测试时使用新观测值对自监督头和特征提取器进行在线更新。
实验结果
研究问题
- RQ1自监督在部署期间没有奖励信号时,是否能够使策略适应?
- RQ2在线自监督适应是否提升了视觉为基础的强化学习在未见环境变化中的泛化能力?
- RQ3哪些自监督任务(反向动力学、旋转、CURL)最适合支持部署时的适应?
- RQ4PAD 在多样的仿真域和真实机器人任务中的表现如何?
- RQ5在线学习与离线学习对 PAD 效果的影响是什么?
主要发现
- PAD 在 22 个 DMControl 测试环境中提升泛化至 19 个,在所有 CRLMaze 测试环境中提升。
- PAD 在跨任务和设置中常常优于领域随机化。
- 将反向动力学作为自监督在运动控制任务中提供更稳定的提升,而旋转在导航任务中有助于场景理解。
- 部署时在线学习显著提升适应性;离线变体的提升较小。
- PAD 使在若干环境中具有未标定相机输入的 Kinova 机器人实现Sim2Real迁移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。