[论文解读] Composing Meta-Policies for Autonomous Driving Using Hierarchical Deep Reinforcement Learning
该论文提出了一种分层深度强化学习方法,通过组合预训练的基础策略来构建元策略,以应对部分可观测、噪声环境下的自动驾驶控制问题。通过使用基于GRU的元策略动态选择固定控制器,该方法在奖励方面比次优的组合技术高出2.6倍,并在完全可观测设置下将探索量减少80%,同时在50次迭代内收敛,而标准强化学习在部分可观测场景下即使经过200次迭代也无法收敛。
Rather than learning new control policies for each new task, it is possible, when tasks share some structure, to compose a "meta-policy" from previously learned policies. This paper reports results from experiments using Deep Reinforcement Learning on a continuous-state, discrete-action autonomous driving simulator. We explore how Deep Neural Networks can represent meta-policies that switch among a set of previously learned policies, specifically in settings where the dynamics of a new scenario are composed of a mixture of previously learned dynamics and where the state observation is possibly corrupted by sensing noise. We also report the results of experiments varying dynamics mixes, distractor policies, magnitudes/distributions of sensing noise, and obstacles. In a fully observed experiment, the meta-policy learning algorithm achieves 2.6x the reward achieved by the next best policy composition technique with 80% less exploration. In a partially observed experiment, the meta-policy learning algorithm converges after 50 iterations while a direct application of RL fails to converge even after 200 iterations.
研究动机与目标
- 为解决在未知或混合动力学模式下控制自动驾驶车辆的挑战,通过组合已有策略而非从零开始重新训练。
- 通过利用先前训练好的策略作为基础策略,提升强化学习中的样本效率和收敛速度。
- 通过在元策略中使用循环神经网络(GRUs)来维持对过去观测的记忆,以应对由于传感噪声导致的部分可观测性。
- 在模拟驾驶环境中,评估元策略学习在不同动力学混合比例、干扰策略和噪声分布下的鲁棒性。
- 与直接强化学习及集成方法相比,从奖励、收敛速度和样本效率三个方面评估元策略学习的性能。
提出的方法
- 使用深度强化学习学习元策略,其动作空间为在k个预训练基础策略中进行离散选择(例如,针对新车与旧车的巡航控制)。
- 元策略由门控循环单元(GRU)表示,以建模时间依赖性,并通过保持对过去状态和观测的记忆来处理部分可观测性。
- 基础策略是固定且预先训练好的,用于已知的动力学模式(例如,不同磨损程度的车辆),元策略学习根据当前状态观测选择何时应用每个基础策略。
- 训练采用策略梯度方法,折扣因子为0.995,批量大小为1000–2000,学习率为0.001,以优化元策略的选择策略。
- 实验在连续状态、离散动作的驾驶模拟器中进行,涵盖不同的动力学混合比例、传感噪声和障碍物配置。
- 将该方法与直接强化学习、投票集成、置信度集成以及多臂老虎机基线方法进行对比,以评估性能和样本效率。
实验结果
研究问题
- RQ1由预训练基础策略组成的元策略是否能在未知动力学的自动驾驶任务中,实现比直接强化学习更高的样本效率和更快的收敛速度?
- RQ2在因传感噪声导致的部分可观测环境下,元策略表现如何?与非循环模型相比,循环网络是否能提升性能?
- RQ3引入无关或次优的干扰策略对元策略收敛能力和高奖励获取能力有何影响?
- RQ4奖励塑造方式(如线性与二次距离惩罚)如何影响元策略学习与直接强化学习的收敛速度?
- RQ5在奖励和探索效率方面,元策略学习是否能优于简单的集成或基于老虎机的选择策略?
主要发现
- 在完全可观测设置下,元策略学习方法获得的奖励是次优策略组合技术的2.6倍,且探索量比直接强化学习减少了80%。
- 在部分可观测设置下,元策略在约50次迭代内收敛至高奖励策略,而直接强化学习即使在200次迭代后仍无法收敛。
- 在最终奖励方面,元策略优于投票集成(31.92 vs. 87.90)和置信度集成(10.32 vs. 87.90),而直接强化学习基线在500次迭代后获得89.16的奖励。
- 元策略中使用GRU能够通过保持对过去观测的记忆,有效应对部分可观测性,提升对传感噪声的鲁棒性。
- 元策略学习的收敛速度随更强的奖励塑造而提升,表明其在稀疏或延迟奖励环境中最为有益。
- 带有3个干扰策略的多臂老虎机基线(UCB)在4,000步内实现正确策略选择,比分层强化学习快两个数量级,表明混合初始化策略具有潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。