[论文解读] COBRA: Data-Efficient Model-Based RL through Unsupervised Object Discovery and Curiosity-Driven Exploration
COBRA 将无监督的面向对象表示学习、好奇心驱动的探索以及基于模型的强化学习结合起来,在连续动作环境中实现数据高效且鲁棒的控制。它在无监督的探索阶段学习对象表征和动力学,然后通过具有1步规划的基于模型的奖励预测器来解决任务。
Data efficiency and robustness to task-irrelevant perturbations are long-standing challenges for deep reinforcement learning algorithms. Here we introduce a modular approach to addressing these challenges in a continuous control environment, without using hand-crafted or supervised information. Our Curious Object-Based seaRch Agent (COBRA) uses task-free intrinsically motivated exploration and unsupervised learning to build object-based models of its environment and action space. Subsequently, it can learn a variety of tasks through model-based search in very few steps and excel on structured hold-out tests of policy robustness.
研究动机与目标
- 在深度强化学习中推动数据效率和鲁棒性,且无需手工设计的监督。
- 从原始像素中发现并发展面向对象的表示。
- 将好奇心驱动的探索与在无监督阶段训练的转换模型相结合。
- 通过使用先前学习的世界模型进行基于模型的规划,实现快速任务求解。
提出的方法
- 使用 MONet 从像素中获取基于槽的、面向对象的场景表示。
- 训练一个动作条件、按槽的转移模型以预测下一步的对象表示。
- 利用对抗性探索策略通过移动对象来最大化转移模型的预测误差。
- 对连续4D动作空间参数化一个分布,以采样对探索有信息量的动作。
- 在任务阶段,冻结视觉/转移/探索模块,并训练奖励预测器;通过预测的下一个状态和奖励评估采样的动作,执行1步模型预测控制。
实验结果
研究问题
- RQ1无监督对象发现是否能产生提高下游任务数据效率的表征?
- RQ2好奇心驱动的对抗性探索是否提升面向对象的强化学习中的动态学习和鲁棒性?
- RQ3使用预先计算好的世界模型进行与任务无关的基于模型的搜索,在连续控制中快速任务求解的效果如何?
- RQ4联合的面向对象表示对策略对任务无关扰动的鲁棒性有什么影响?
主要发现
- COBRA 实现高数据效率,与基线相比在目标任务环境步骤很少的情况下解决任务。
- 该智能体在保留的测试中对任务无关扰动表现出鲁棒性。
- 无监督探索结合面向对象的转移模型通过基于模型的搜索实现快速策略学习。
- 在冻结的世界模型之上学习奖励预测器,可获得有效的一步MPC策略。
- 该方法将预训练的成本摊销到多个任务上,降低了对特定任务策略训练的需求。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。