[论文解读] TreeQN and ATreeC: Differentiable Tree-Structured Models for Deep Reinforcement Learning
本文提出 TreeQN 和 ATreeC,这两种可微分、递归的树状结构模型,将端到端训练的转移模型整合到深度强化学习中,以提升在线规划性能。通过将树回溯(tree backup)表述为可微分操作,模型能够专门学习用于价值估计的转移动态,在推箱子和 Atari 游戏任务中表现优于 n-step DQN、A2C 和价值预测网络(VPNs),且更深的树结构通常能带来更好的性能。
Combining deep model-free reinforcement learning with on-line planning is a promising approach to building on the successes of deep RL. On-line planning with look-ahead trees has proven successful in environments where transition models are known a priori. However, in complex environments where transition models need to be learned from data, the deficiencies of learned models have limited their utility for planning. To address these challenges, we propose TreeQN, a differentiable, recursive, tree-structured model that serves as a drop-in replacement for any value function network in deep RL with discrete actions. TreeQN dynamically constructs a tree by recursively applying a transition model in a learned abstract state space and then aggregating predicted rewards and state-values using a tree backup to estimate Q-values. We also propose ATreeC, an actor-critic variant that augments TreeQN with a softmax layer to form a stochastic policy network. Both approaches are trained end-to-end, such that the learned model is optimised for its actual use in the tree. We show that TreeQN and ATreeC outperform n-step DQN and A2C on a box-pushing task, as well as n-step DQN and value prediction networks (Oh et al. 2017) on multiple Atari games. Furthermore, we present ablation studies that demonstrate the effect of different auxiliary losses on learning transition models.
研究动机与目标
- 解决在复杂、高维环境中学习准确转移模型以支持在线规划的挑战,因为模型误差会限制规划的实用性。
- 通过将可微分树状结构的价值估计过程直接嵌入 Q 函数或策略网络,提升模型无关深度强化学习中的样本效率和规划准确性。
- 端到端联合训练转移模型、策略和价值函数,确保其优化目标是实际的规划性能,而非观测重建。
- 探究辅助损失是否能更牢固地将转移模型与环境对齐,同时保持性能并提升内部规划的可解释性。
提出的方法
- TreeQN 通过在抽象状态空间中递归应用共享的、可学习的转移模型,构建可微分的递归树结构,Q 值通过聚合奖励和下一状态值的树回溯计算得出。
- 树结构通过反向传播实现可微分,支持转移模型、奖励头和价值头的端到端联合训练。
- ATreeC 在 TreeQN 的基础上,于树输出之上增加一个 Softmax 层,形成随机策略网络,从而支持演员-评论家训练。
- 模型采用可微分的树回溯操作,将 Q 值表示为即时奖励与折扣后下一状态值的递归和,且树节点间共享参数。
- 引入辅助损失以提升转移模型的保真度,包括观测空间中的重建损失,以及在抽象空间中对未来状态的预测。
- 整个架构通过策略梯度或 Q 学习目标端到端训练,且转移模型的优化目标是规划准确性,而非生成式重建。
实验结果
研究问题
- RQ1当转移模型通过端到端方式训练时,可微分、递归的树状结构模型是否能提升深度强化学习中的在线规划性能?
- RQ2若将转移模型的训练目标从观测重建改为规划性能,是否能提升样本效率和最终性能?
- RQ3TreeQN 和 ATreeC 中更深的树是否能优于更浅的树或标准的 DQN 架构?
- RQ4用于转移模型监督的辅助损失如何影响规划准确性和模型可解释性?
- RQ5将可微分树搜索整合到价值函数或策略中,是否能在复杂控制任务和 Atari 游戏中超越现有的基于模型和无模型基线方法?
主要发现
- 在 26 款 Atari 游戏中,TreeQN 在 18 款上优于 n-step DQN 和价值预测网络(VPNs),尤其在 Ms. Pac-Man 和 Q*bert 等游戏中表现显著提升。
- ATreeC 在所有 Atari 环境中表现与 A2C 相当或更优,尤其在 Q*bert 和 Krull 中表现更强,但在 Seaquest 中出现策略过早崩溃的问题。
- TreeQN-2 在 Atari 上取得 9302 的平均人类归一化得分,超过 n-step DQN 的最佳报告得分 7860 和 A2C 的 8241。
- 在推箱子任务中,TreeQN 和 ATreeC 均优于 n-step DQN 和 A2C,其中 TreeQN-2 最终得分为 15688,高于 n-step DQN 的 14468。
- 更深的树(如 TreeQN-2)通常优于更浅的树,表明递归规划能提升价值估计性能。
- 消融实验表明,对奖励函数进行约束能提升性能,但如何在不降低性能的前提下学习强约束的转移模型,仍是开放挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。