[论文解读] The Termination Critic
本文提出了一种新颖的信息论目标,用于在选项中学习终止条件,将终止条件视为状态编码的可压缩性,而非基于奖励的价值优化。通过使用学习到的选项转移模型作为“评论家”来计算梯度,该方法避免了选项坍塌,并生成了非平凡且规划高效的选项,其性能优于原始动作和先前的A2OC方法(含思考成本)。
In this work, we consider the problem of autonomously discovering behavioral abstractions, or options, for reinforcement learning agents. We propose an algorithm that focuses on the termination condition, as opposed to -- as is common -- the policy. The termination condition is usually trained to optimize a control objective: an option ought to terminate if another has better value. We offer a different, information-theoretic perspective, and propose that terminations should focus instead on the compressibility of the option's encoding -- arguably a key reason for using abstractions. To achieve this algorithmically, we leverage the classical options framework, and learn the option transition model as a "critic" for the termination condition. Using this model, we derive gradients that optimize the desired criteria. We show that the resulting options are non-trivial, intuitively meaningful, and useful for learning and planning.
研究动机与目标
- 为解决在强化学习中自主发现有用行为抽象(选项)的挑战。
- 克服现有方法(如Option-Critic)中的选项坍塌问题,即选项退化为单步动作原语。
- 将关注点从基于奖励的终止目标转向选项编码的信息论可压缩性。
- 开发一种训练目标,以鼓励终止条件集中于一小部分有意义的状态,从而提升规划效率。
- 将终止学习与奖励优化解耦,从而可独立研究终止质量。
提出的方法
- 提出一种基于选项状态轨迹可预测性(可压缩性)的新终止目标,灵感源自最小描述长度原理。
- 在经典选项框架中,利用学习到的选项转移模型作为“评论家”,以估计终止条件的质量。
- 推导出一个终止梯度定理,将选项模型的变化与终止条件的变化关联起来,从而实现端到端的基于梯度的优化。
- 利用推导出的梯度,通过策略梯度方法训练终止条件,同时策略则基于标准奖励目标进行训练。
- 采用一种在线演员-评论家终止评论家(ACTC)算法,通过基于模型的评论家联合优化终止条件与策略。
- 引入一种基于选项模型转移动态熵的损失函数,通过最小化该熵来鼓励可预测、可压缩的选项行为。
实验结果
研究问题
- RQ1基于可压缩性的终止目标是否能在防止选项坍塌方面优于基于奖励的目标?
- RQ2通过可预测性学习终止是否能产生更有利于规划和学习的选项?
- RQ3基于模型的评论家能否在不依赖奖励塑形或超参数敏感权衡的情况下,有效引导终止学习?
- RQ4选项轨迹的可预测性与下游规划性能之间是否存在相关性?
- RQ5能否在无需显式监督或基于奖励的终止信号的情况下,学习到非平凡且语义上有意义的选项?
主要发现
- 所提出的ACTC算法成功防止了选项坍塌,即使在策略使用相同奖励目标训练时,也能生成非平凡选项。
- 采用可压缩性目标学习到的选项在值迭代中收敛更快,平均策略价值随可预测性目标降低而提升。
- ACTC在规划性能上优于A2OC(含思考成本),其性能可匹配或超过更确定性的随机目标选项。
- 信息论终止目标与规划效率高度相关,表明可压缩性是选项质量的合理代理指标。
- 使用学习到的模型作为评论家,可有效计算终止的梯度,避免了先前方法中常见的超参数敏感性问题。
- 定性分析表明,学习到的选项表现出直观的目标导向行为,聚焦于一小部分状态进行终止。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。