[论文解读] Model-Based Planning with Discrete and Continuous Actions
本文提出了一种统一的基于梯度的规划方法,适用于离散和连续动作空间,通过在单纯形上重参数化离散动作,并在前向模型训练期间引入输入噪声。该方法在离散设置中实现了高效、可微分的规划,并能无缝结合连续控制,在混合动作空间任务中表现优于基于模型的强化学习,同时通过策略蒸馏实现快速推理。
Action planning using learned and differentiable forward models of the world is a general approach which has a number of desirable properties, including improved sample complexity over model-free RL methods, reuse of learned models across different tasks, and the ability to perform efficient gradient-based optimization in continuous action spaces. However, this approach does not apply straightforwardly when the action space is discrete. In this work, we show that it is in fact possible to effectively perform planning via backprop in discrete action spaces, using a simple paramaterization of the actions vectors on the simplex combined with input noise when training the forward model. Our experiments show that this approach can match or outperform model-free RL and discrete planning methods on gridworld navigation tasks in terms of performance and/or planning time while using limited environment interactions, and can additionally be used to perform model-based control in a challenging new task where the action space combines discrete and continuous actions. We furthermore propose a policy distillation approach which yields a fast policy network which can be used at inference time, removing the need for an iterative planning procedure.
研究动机与目标
- 实现对传统上难以进行可微分优化的离散动作空间中的基于梯度的规划。
- 通过单一可微分框架,统一处理离散和连续动作的规划。
- 通过将高质量轨迹蒸馏为快速前馈策略,减少基于模型规划中的推理时间。
- 在结合导航(连续)和信号发送(离散)任务的复杂混合动作空间环境中评估该方法。
- 在复杂控制任务中,展示相较于基于模型的强化学习方法的样本效率和性能提升。
提出的方法
- 将离散动作重参数化为单纯形上的概率向量,以支持梯度计算。
- 在前向模型训练过程中引入输入噪声,以稳定离散动作的梯度。
- 通过反向传播经过学习到的前向模型,利用梯度下降优化动作序列。
- 训练一个前馈策略网络,以模仿通过迭代基于梯度的规划生成的高质量轨迹。
- 利用前向模型生成的合成轨迹进行策略蒸馏,无需额外的环境交互。
- 在单一统一的规划与控制框架中,结合连续推力控制与离散信号发送动作。
实验结果
研究问题
- RQ1能否通过可微分重参数化,有效将基于梯度的规划应用于离散动作空间?
- RQ2在离散动作任务中,基于梯度的规划性能与树搜索和基于模型的强化学习相比如何?
- RQ3相同的可微分框架能否有效处理结合离散与连续动作的混合动作空间?
- RQ4策略蒸馏是否能显著减少推理时间,同时保持规划质量?
- RQ5该方法能否在复杂环境中以极少的环境交互实现高性能表现?
主要发现
- 所提方法在Spaceship任务中实现了平均奖励12.2,显著优于A2C基于模型的基线方法的-19.2。
- GBP(基于梯度的规划)实现了11.1的奖励,但每次推理需0.19秒,而DistGBP实现了12.2的奖励,仅需0.01秒,表明推理速度提升了19倍。
- DistGBP智能体学会了规避行星引力、导航至目标点并发出正确的颜色信号,展示了对离散与连续动作的联合优化能力。
- 前向模型仅通过10,000轮随机轨迹训练,展现出极高的样本效率。
- 策略蒸馏实现了无需迭代规划的快速推理,使该方法适用于实时应用。
- 在网格世界导航任务中,该方法在性能和规划速度方面均达到或超越强基线模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。