[论文解读] Stochastic Neural Networks for Hierarchical Reinforcement Learning
本文提出一个框架,通过使用带信息理论正则化的随机神经网络预训练一系列多样化技能,然后在这些技能之上学习高级策略,以解决奖励稀疏的下游任务。
Deep reinforcement learning has achieved many impressive results in recent years. However, tasks with sparse rewards or long horizons continue to pose significant challenges. To tackle these important problems, we propose a general framework that first learns useful skills in a pre-training environment, and then leverages the acquired skills for learning faster in downstream tasks. Our approach brings together some of the strengths of intrinsic motivation and hierarchical methods: the learning of useful skill is guided by a single proxy reward, the design of which requires very minimal domain knowledge about the downstream tasks. Then a high-level policy is trained on top of these skills, providing a significant improvement of the exploration and allowing to tackle sparse rewards in the downstream tasks. To efficiently pre-train a large span of skills, we use Stochastic Neural Networks combined with an information-theoretic regularizer. Our experiments show that this combination is effective in learning a wide span of interpretable skills in a sample-efficient way, and can significantly boost the learning performance uniformly across a wide range of downstream tasks.
研究动机与目标
- 在稀疏奖励和长时程任务中提供动机并解决学习问题。
- 提出一个预训练阶段,在尽量少的特定任务引导下发现广泛有用的技能。
- 引入随机神经网络(SNNs)来表示多模态策略并实现技能多样性。
- 引入信息理论正则化以鼓励技能的区分性、可解释性。
- 在学习到的技能之上训练高级策略以加速下游学习。
提出的方法
- 使用带代理奖励的预训练环境来引导技能发现。
- 用随机神经网络建模策略,将潜变量作为输入引入确定性前馈网络。
- 通过双线性交互整合潜变量,以增强多模态性和技能多样性。
- 添加基于互信息的奖励,最大化潜编码与相关状态分量之间的信息量。
- 冻结所学的低级技能,训练一个高级管理器在固定时域内选择一个技能,从而实现分层控制。
- 在预训练和下游任务中使用信任区域策略优化(TRPO)来优化策略。
实验结果
研究问题
- RQ1带有 MI 奖励的 SNN 是否能够可靠地产生大量且可解释的技能?
- RQ2用代理奖励进行预训练是否能改善下游稀疏奖励任务中的探索和样本效率?
- RQ3使用学习到的技能的层次化策略在迷宫和搜集任务中是否比基线方法加速学习?
- RQ4潜变量的双线性整合在多大程度上提高技能多样性和下游性能?
主要发现
- 带有双线性整合和 MI 正则化的 SNN 产生广泛且可解释的技能。
- 对学习的技能进行分层使用,在稀疏奖励环境中比非分层基线更好地提升探索。
- 使用代理奖励加上 MI 奖励的预训练在迷宫和食物获取任务中对多次运行的学习速度有加速效果。
- 通过在学习任务特定的高层管理器时共享低级策略,降低样本复杂度。
- 在某些下游任务中,使用 MI 正则化的 SNN 能展现更强的性能和更低的方差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。