[论文解读] Guided Deep Reinforcement Learning for Swarm Systems
本文提出一种 actor-critic 框架,其中一个具备全局状态访问权的集中式 critic 指导同质群体代理的学习,而每个代理在局部观测下行动,使得在仿真群体中进行协作任务如图构建和目标定位。
In this paper, we investigate how to learn to control a group of cooperative agents with limited sensing capabilities such as robot swarms. The agents have only very basic sensor capabilities, yet in a group they can accomplish sophisticated tasks, such as distributed assembly or search and rescue tasks. Learning a policy for a group of agents is difficult due to distributed partial observability of the state. Here, we follow a guided approach where a critic has central access to the global state during learning, which simplifies the policy evaluation problem from a reinforcement learning point of view. For example, we can get the positions of all robots of the swarm using a camera image of a scene. This camera image is only available to the critic and not to the control policies of the robots. We follow an actor-critic approach, where the actors base their decisions only on locally sensed information. In contrast, the critic is learned based on the true global state. Our algorithm uses deep reinforcement learning to approximate both the Q-function and the policy. The performance of the algorithm is evaluated on two tasks with simple simulated 2D agents: 1) finding and maintaining a certain distance to each others and 2) locating a target.
研究动机与目标
- 解决感知受限的群体协作策略学习
- 在训练阶段利用具备完整状态的集中式 critic,同时保持代理基于局部观测
- 在两个群体任务中演示同质代理的端到端深度强化学习
- 评估随群体规模变化的可扩展性,并比较引导学习与非引导学习
提出的方法
- 使用一个带有集中式引导 critic 的 actor-critic 框架,利用全局状态评估联合动作
- 代理基于局部观测历史执行策略,而非全局状态
- 用紧凑向量表示全局群体状态以学习 Q 函数,同时代理在局部观测下行动
- 将群体建模为一个群体 MDP,同质代理在历史 H 上共享单一策略 μ
- 引入基于直方图的固定大小观测表示以处理变化的邻居数量
- 如同 DDPG/DRL 实践,使用经验回放和缓慢的目标网络进行训练
- 提供两个受 Kilobot 启发的仿真任务:图构建(维持距离以最大化边数)和目标定位(协作搜索)
- 为分布式局部代理采用确定性策略梯度,并使用 μ(h^i) 对所有代理的联合动作进行集中 critic 更新
实验结果
研究问题
- RQ1带有集中 critic 的引导学习是否能够在部分可观测的群体系统中实现有效策略?
- RQ2在训练和评估阶段,策略性能如何随代理数量的增加而扩展?
- RQ3群体任务是否需要引导学习,还是可以通过非引导的联合历史 Q 学习成功?
- RQ4通信与观测建模选择(直方图输入)对学习结果有何影响?
- RQ5学习到的策略在不同任务(图构建 vs 定位)和代理数量之间有何比较?
主要发现
- 在两个任务中成功学习了 2–8 个代理的分布式策略,尽管代理数量越多越困难
- 在边缘(图)任务中,带引导 critic 的策略表现优于非引导方法,其中联合历史 Q-learning 失败
- 在定位任务中,随着代理数量增加,带有代理间通信的策略表现优于无通信的策略
- 出现不同的学习策略:较少代理时的小群体圆形运动,更多代理时的较大聚集
- 该方法展示了从高维传感输入到行动的端到端学习,无需手工特征
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。