[论文解读] Information asymmetry in KL-regularized RL
本文提出在KL正则化的强化学习中学习一个默认策略,通过强制信息不对称来加速并稳定训练:默认策略所见的状态信息少于智能体策略,从而迫使其学习可复用的、与任务无关的行为。实验结果表明,在连续控制和离散视觉导航任务中,学习速度显著提升,尤其在稀疏奖励设置下更为明显,当默认策略被限制在最小信息集时性能最佳。
Many real world tasks exhibit rich structure that is repeated across different parts of the state space or in time. In this work we study the possibility of leveraging such repeated structure to speed up and regularize learning. We start from the KL regularized expected reward objective which introduces an additional component, a default policy. Instead of relying on a fixed default policy, we learn it from data. But crucially, we restrict the amount of information the default policy receives, forcing it to learn reusable behaviors that help the policy learn faster. We formalize this strategy and discuss connections to information bottleneck approaches and to the variational EM algorithm. We present empirical results in both discrete and continuous action domains and demonstrate that, for certain tasks, learning a default policy alongside the policy can significantly speed up and improve learning.
研究动机与目标
- 通过利用跨任务的重复性、结构化行为,解决强化学习中的样本效率和泛化性挑战。
- 在探索困难的稀疏奖励环境中提升样本效率。
- 探究学习默认策略而非固定它是否能提升性能和泛化能力。
- 形式化一种方法,通过学习访问信息受限的默认策略,促使智能体策略共享行为模式。
- 证明智能体与默认策略之间的信息不对称可带来更快、更鲁棒的学习效果。
提出的方法
- 形式化一种KL正则化的强化学习目标,其中智能体策略被正则化向学习到的默认策略靠拢,而非固定的先验。
- 通过限制默认策略对某些状态分量的访问,引入信息不对称,防止其复制智能体的行为。
- 通过联合优化目标,联合训练智能体策略和默认策略,其中默认策略仅依赖于状态历史的子集。
- 采用不同架构的默认策略:前馈网络(仅当前状态和上一动作)、LSTM(仅上一动作)和向量(与状态和动作无关),以测试泛化能力。
- 将该方法应用于连续控制(如复杂行走者)和离散视觉导航(如DMLab)环境。
- 使用熵分析和边际动作概率分析,解释学习到的默认策略,评估其在探索中的作用。
实验结果
研究问题
- RQ1与使用固定先验相比,学习默认策略是否能提升强化学习中的样本效率?
- RQ2在智能体与默认策略之间强制实施信息不对称,是否能带来更好的泛化能力和更快的学习速度?
- RQ3受限的默认策略学习到了何种行为?这些行为如何在复杂环境中支持探索?
- RQ4所提方法与采用均匀默认策略的标准熵正则化强化学习相比,性能如何?
- RQ5学习到的默认策略是否可跨不同任务复用以加速学习?
主要发现
- 在具有复杂行走者的稀疏奖励连续控制任务中,通过信息不对称学习默认策略,相比采用均匀默认策略的基线方法,实现了显著的学习加速。
- 向量默认策略(与状态和动作无关)通过学习到前向偏置的动作分布(70%前向,10%后向),在DMLab中实现了优异性能,提升了探索效率。
- LSTM默认策略(仅观察上一动作)学习到了一致的运动模式(如持续前向),支持如沿墙行走等导航策略。
- 默认策略的熵随训练过程下降,表明其分布变得尖锐且与均匀基线明显不同,说明有效学习到了结构化模式。
- 在密集奖励或简单任务中,性能增益有限,表明该方法在需要结构化探索的复杂稀疏奖励环境中效益最大。
- 该方法无需人工设计的动作空间即可发现有意义的动作空间偏置(如前向偏置),降低了对专家知识的依赖。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。