[论文解读] Learning to Repeat: Fine Grained Action Repetition for Deep Reinforcement Learning
本文提出FiGAR,一种通用框架,使深度强化学习智能体能够动态学习动作及其最优重复时长,从而在多种环境中提升策略性能。通过使用因子化策略将动作选择与重复时长相解耦,FiGAR在不修改底层算法的前提下,提升了Atari、MuJoCo和TORCS领域中的样本效率与策略质量。
Reinforcement Learning algorithms can learn complex behavioral patterns for sequential decision making tasks wherein an agent interacts with an environment and acquires feedback in the form of rewards sampled from it. Traditionally, such algorithms make decisions, i.e., select actions to execute, at every single time step of the agent-environment interactions. In this paper, we propose a novel framework, Fine Grained Action Repetition (FiGAR), which enables the agent to decide the action as well as the time scale of repeating it. FiGAR can be used for improving any Deep Reinforcement Learning algorithm which maintains an explicit policy estimate by enabling temporal abstractions in the action space. We empirically demonstrate the efficacy of our framework by showing performance improvements on top of three policy search algorithms in different domains: Asynchronous Advantage Actor Critic in the Atari 2600 domain, Trust Region Policy Optimization in Mujoco domain and Deep Deterministic Policy Gradients in the TORCS car racing domain.
研究动机与目标
- 解决深度强化学习中固定或静态动作重复的局限性,该局限性限制了时间抽象与策略灵活性。
- 使智能体不仅能学习采取何种动作,还能学习重复该动作的时长,从而支持更高效和自适应的决策。
- 为现有策略梯度算法(如A3C、TRPO和DDPG)提供一种通用、即插即用的扩展,以在连续和离散动作空间中提升性能。
- 通过实证验证,动态动作重复可带来更高的样本效率和最终性能,尤其在复杂控制任务中。
提出的方法
- FiGAR引入了一种因子化策略表示,其中动作选择与重复时长通过独立的概率分布进行建模。
- 该框架修改了策略网络,使其同时输出动作概率和所选动作重复时长的分布。
- 动作重复被实现为宏动作:智能体选择一个动作和一个时长,然后在该时长内重复执行该动作。
- 该方法兼容任何策略梯度算法,通过将标准动作采样步骤替换为联合动作-时长采样,可无缝集成。
- 动作重复集合W可配置——例如1至50的所有整数,或一组质数——从而在时间抽象的探索中提供灵活性。
- 超参数在不同变体间共享(例如在FiGAR-30上调优),以证明在不重新调优的情况下,对不同重复集合具有良好的泛化能力。
实验结果
研究问题
- RQ1动态动作重复能否提升深度强化学习中的学习效率和最终性能?
- RQ2将动作选择与重复时长相解耦,是否能实现优于固定重复的时间抽象?
- RQ3FiGAR能否在不修改底层强化学习算法的前提下,有效应用于离散和连续控制任务?
- RQ4动作重复集合W的选择如何影响学习性能及在不同环境中的泛化能力?
- RQ5在Atari等高度确定性环境(如高精度时机控制或长时长操作)中,FiGAR能否学习到最优宏动作?
主要发现
- 在31款Atari 2600游戏中,FiGAR显著优于A3C基线模型,FiGAR-P的平均得分为20,005.40,FiGAR-50为22,904.50,而基线仅为2,769.40。
- 在MuJoCo领域,FiGAR-30-50在Seaquest任务中取得了1,828.90的平均得分,远超基线的1,268.75。
- 在TORCS竞速领域,FiGAR-30-50取得了11,090.00的得分,显著高于基线的2,364.00。
- 该框架在不同重复集合间表现出良好泛化能力:即使使用在FiGAR-30上调优的固定超参数,其他变体如FiGAR-20-30和FiGAR-P也取得了优异性能。
- 可视化结果表明,FiGAR能够学习到时间上延展的宏动作,例如在Freeway中等待交通通过,或在Seaquest中拦截敌人,展示了有效的时间抽象能力。
- 结果证实,学习最优重复时长可带来更平滑、更高效的策略,并在确定性环境中实现更高的样本效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。