[论文解读] Learning by Playing - Solving Sparse Reward Tasks from Scratch
Introduce了 Scheduled Auxiliary Control (SAC-X),一个分层强化学习框架,通过使用一组辅助任务和一个学习的调度器来驱动探索和策略学习,从零开始学习复杂的稀疏奖励任务。
We propose Scheduled Auxiliary Control (SAC-X), a new learning paradigm in the context of Reinforcement Learning (RL). SAC-X enables learning of complex behaviors - from scratch - in the presence of multiple sparse reward signals. To this end, the agent is equipped with a set of general auxiliary tasks, that it attempts to learn simultaneously via off-policy RL. The key idea behind our method is that active (learned) scheduling and execution of auxiliary policies allows the agent to efficiently explore its environment - enabling it to excel at sparse reward RL. Our experiments in several challenging robotic manipulation settings demonstrate the power of our approach.
研究动机与目标
- 通过利用辅助任务,在外部奖励稀少的环境中激发学习。
- 提出一个分层强化学习框架,联合学习辅助意图和主任务。
- 开发一个调度器,用于对辅助策略进行排序,以增强探索和外部任务性能。
- 证明样本高效学习以及从仿真到真实机器人硬件的可迁移性。
提出的方法
- 将主稀疏奖励的MDP定义为附加一个辅助奖励向量及相应的意图策略。
- 通过带有共享回放缓冲区的离策略梯度更新,学习每个辅助任务和主任务的意图。
- 训练一个调度器,在每个情节中对意图进行排序,使用对任务选择的玻尔兹曼灵感策略。
- 使用 Retrace 对离策略 Q 函数进行评估,以实现对所有意图的稳定学习。
- 将调度与课程学习和分层 RL 联系起来,使学习到的子策略能够安全组合。
实验结果
研究问题
- RQ1具有语义上有意义的辅助任务能否在稀疏奖励强化学习设置中加速探索和学习?
- RQ2相比于均匀或随机调度,学习到的切换辅助意图的调度器是否能提升外部任务性能?
- RQ3SAC-X 是否能够从零开始解决包括堆叠和清理在内的复杂机器人操作任务,且外部奖励有限?
- RQ4在真实机器人实验中的学习速度和数据效率方面,SAC-X 的表现如何?
- RQ5在多个外部任务之间,辅助任务与外部任务性能之间的关系是什么?
主要发现
- SAC-U 和 SAC-Q 可靠地学习像堆叠方块这样的稀疏外部任务,优于在这些任务上失败的 DDPG。
- 学习到的调度器(SAC-Q)通常能加速学习,并且最终性能略优于均匀调度(SAC-U)。
- 该方法能够从原始像素输入以及特征进行学习,像素学习速度较慢但仍然成功。
- 调度辅助意图显著减少学习时间,并相较于非调度基线(IUA)提高了可靠性。
- 真实机器人实验表明学习举起一个方块在大约 10 小时的真实时间学习后达到能力水平,且在试验中高成功率。
- 该方法可以扩展到更复杂的任务(例如多对象清理),其中 SAC-Q 学习所有外部任务和辅助任务,而基线失败。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。