QUICK REVIEW

[论文解读] Reinforcement Learning with Parameterized Actions

Warwick Masson, Pravesh Ranchod|arXiv (Cornell University)|Sep 5, 2015

Reinforcement Learning in Robotics参考文献 16被引用 62

一句话总结

本文提出 Q-PAMDP，一种用于具有参数化动作的马尔可夫决策过程的无模型强化学习算法——即在离散动作中加入连续参数。该算法在动作选择策略与参数选择策略之间交替学习，证明了其可收敛至局部最优，并在目标得分与平台控制任务中优于直接策略搜索和固定参数 SARSA 方法。

ABSTRACT

We introduce a model-free algorithm for learning in Markov decision processes with parameterized actions-discrete actions with continuous parameters. At each step the agent must select both which action to use and which parameters to use with that action. We introduce the Q-PAMDP algorithm for learning in these domains, show that it converges to a local optimum, and compare it to direct policy search in the goal-scoring and Platform domains.

研究动机与目标

解决标准强化学习在处理需同时进行离散选择与连续参数化的动作时的局限性。
实现灵活且结构化的动作空间，使不同动作（如踢球、传球、奔跑）具有各自独立的连续参数化方式。
开发一种无需环境模型的联合优化动作选择与参数值的学习算法。
在适当的更新规则下确保收敛至局部最优。
在需要精细动作控制的任务中（如机器人导航与踢球任务）对方法进行实证评估。

提出的方法

将问题形式化为参数化动作 MDP（PAMDP），其中动作为（离散动作，连续参数）的元组形式。
提出 Q-PAMDP，一种两阶段算法，交替学习离散动作上的策略与各动作的参数优化。
使用类似 Q-learning 的更新方式处理动作值函数，对每个离散动作使用独立的函数逼近器。
应用 P-UPDATE 方法，通过基于梯度的优化改进参数策略，实现局部收敛。
实现两种变体：Q-PAMDP(1)，在每个回合后更新参数；Q-PAMDP(∞)，对参数执行全局优化。
与直接策略搜索（eNAC）和固定参数 SARSA 对比，以评估性能与鲁棒性。

实验结果

研究问题

RQ1无模型算法能否在参数化动作的 MDP 中有效学习策略，其中动作虽为离散但需连续参数？
RQ2在动作选择与参数优化之间交替是否能收敛至局部最优？
RQ3Q-PAMDP 在样本效率与最终性能方面相较于直接策略搜索与固定参数 SARSA 表现如何？
RQ4在何种环境下 Q-PAMDP(1) 比 Q-PAMDP(∞) 更有效，反之亦然？
RQ5相较于纯连续动作空间，参数化动作是否能更优地表示不连续或结构差异显著的行为？

主要发现

在适当的更新规则下，Q-PAMDP(1) 与 Q-PAMDP(∞) 均能收敛至局部最优，理论依据充分。
在目标得分任务中，Q-PAMDP(1) 与 Q-PAMDP(∞) 的目标得分成功率约为 35%，显著优于 eNAC（10%）与固定参数 SARSA（40%）。
在平台控制任务中，Q-PAMDP(∞) 表现优于 Q-PAMDP(1)，表明其更适合于动作值函数存在突变的环境。
Q-PAMDP(1) 在平台任务中表现不佳，即使参数变化微小，但值函数出现大幅、不连续变化，表明其对非光滑动力学敏感。
该方法成功处理了不连续策略，无需复杂参数化，同时保持了不同动作之间的结构差异。
实证结果证实，参数化动作相较于仅使用连续动作空间，能更优地表示不同行为（如踢球与传球）的差异。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。