[论文解读] Worst Cases Policy Gradients
WCPG 引入了一种风险敏感的 actor-critic 框架,它对未来回报的分布进行建模,并针对不同风险水平优化 CVaR,从而实现基于 alpha 条件的策略,在驾驶仿真中实现更安全、更鲁棒的控制。
Recent advances in deep reinforcement learning have demonstrated the capability of learning complex control policies from many types of environments. When learning policies for safety-critical applications, it is essential to be sensitive to risks and avoid catastrophic events. Towards this goal, we propose an actor-critic framework that models the uncertainty of the future and simultaneously learns a policy based on that uncertainty model. Specifically, given a distribution of the future return for any state and action, we optimize policies for varying levels of conditional Value-at-Risk. The learned policy can map the same state to different actions depending on the propensity for risk. We demonstrate the effectiveness of our approach in the domain of driving simulations, where we learn maneuvers in two scenarios. Our learned controller can dynamically select actions along a continuous axis, where safe and conservative behaviors are found at one end while riskier behaviors are found at the other. Finally, when testing with very different simulation parameters, our risk-averse policies generalize significantly better compared to other reinforcement learning approaches.
研究动机与目标
- 在结果具有随机性的安全关键领域,推动安全、鲁棒的序贯决策。
- 对未来回报的分布进行建模,并优化一个考虑风险的准则,而不仅仅是期望回报。
- 开发可扩展的 actor-critic 架构,支持连续动作空间和离策略学习。
- 通过将策略条件化到一个风险参数 alpha,启用一系列风险敏感度。
提出的方法
- 在 DDPG actor-critic 框架基础上扩展一个分布式 critic,预测每个状态-动作对未来回报的均值 Q 和方差 Upsilon。
- 将回报分布 Z(s,a) 建模为均值为 Q、方差为 Upsilon 的高斯分布,并从这些参数推导出闭式的 CVaR_alpha (Gamma = Q - (phi(alpha)/Phi(alpha)) * sqrt(Upsilon)。
- 通过闭式形式计算 CVaR,以在无需昂贵采样的情况下提供风险敏感目标。
- 训练一个以 alpha 作为输入的单一神经网络,从而实现连续一组风险敏感策略 pi_theta(a|s, alpha)。
- 使用离策略经验回放缓冲区,并通过 critic 反向传播基于 CVaR 的梯度来同时更新 actor 和 critic 网络。
- 通过将 alpha 作为输入进行离散化或参数化;在训练过程中,alpha 在每个回合采样,以学习一系列具有风险容忍度的策略。
实验结果
研究问题
- RQ1通过分布式 critic 优化 CVaR(alpha) 是否可以提高连续控制任务中的风险鲁棒性?
- RQ2单个网络能否通过对 alpha 的条件化学习一系列风险敏感策略,并且这对不同风险偏好下的性能有何影响?
- RQ3在遇到分布外的环境参数时,所提方法与最先进的强化学习方法相比如何?
- RQ4学习得到的 critic 在代理接近关键操作时揭示的不确定性和风险是什么?
- RQ5在有限再训练的情况下,该方法能否迁移到相关的仿真环境(如 CARLA)?
主要发现
- WCPG 学习风险规避策略,随着 alpha 减小,降低碰撞发生的可能性。
- 较小的 alpha 使行为更保守,驾驶任务的完成时间更长。
- critics 的评估的不确定性在高风险情形下增加(如接近对向来车),在动作完成后下降。
- 在对分布外环境参数的外推下,低 alpha 的 WCPG 相较基线方法显示出更强的鲁棒性。
- 用 WCPG 训练的策略对不同仿真参数具有更好的泛化性,并且能够迁移到 CARLA 场景,在较低 alpha 下保持鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。