QUICK REVIEW

[论文解读] Cooperative and Distributed Reinforcement Learning of Drones for Field Coverage

Huy Xuan Pham, Hung Manh La|arXiv (Cornell University)|Mar 20, 2018

Distributed Control Multi-Agent Systems参考文献 27被引用 69

一句话总结

本文提出一种分布式多智能体强化学习框架，让一支无人机队在尽量减少重叠的同时实现对未知场的完整覆盖，利用相关均衡与函数逼近。

ABSTRACT

This paper proposes a distributed Multi-Agent Reinforcement Learning (MARL) algorithm for a team of Unmanned Aerial Vehicles (UAVs). The proposed MARL algorithm allows UAVs to learn cooperatively to provide a full coverage of an unknown field of interest while minimizing the overlapping sections among their field of views. Two challenges in MARL for such a system are discussed in the paper: firstly, the complex dynamic of the joint-actions of the UAV team, that will be solved using game-theoretic correlated equilibrium, and secondly, the challenge in huge dimensional state space representation will be tackled with efficient function approximation techniques. We also provide our experimental results in detail with both simulation and physical implementation to show that the UAV team can successfully learn to accomplish the task.

研究动机与目标

使用无模型方法应对未知形状场的最优感知覆盖挑战。
使一支由相同无人机组成的团队能够协同学习，以最大化覆盖并降低视场重叠。
通过高效的函数逼近处理大型联合行动-状态空间。
结合博弈论中的相关均衡来选择联合行动。
通过仿真和实际无人机实验证明有效性。

提出的方法

将场覆盖表述为带有联合状态和联合行动空间的多智能体马尔可夫博弈。
使用通过线性规划求解的相关均衡（CE）来确定稳定的联合行动。
定义一个全局团队奖励，鼓励实现对场域的完全覆盖并最小化重叠。
使用近似的Q学习，配合 Fixed Sparse Representation (FSR) 或 Radial Basis Function (RBF) 以降低价值函数的维数。
使用分布式规则更新Q值（或参数向量），将全局奖励和CE派生的行动纳入其中。
实现社会约定机制，以对无人机之间的行动选择进行序列化，从而避免碰撞。

实验结果

研究问题

RQ1带有CE的MARL框架是否能够在最小化 UAV 之间重叠的同时实现未知场的完全覆盖？
RQ2FSR 与 RBF 函数逼近在多无人机覆盖任务中的可扩展性和收敛性有何比较？
RQ3基于社会约定的行动选择在分布式设置中是否能确保联合行动的无碰撞？
RQ4与独立奖励相比，使用全局团队奖励对学习速度和收敛有何影响？

主要发现

所提出的 MARL 方法使无人机队能够学习出在仿真和实际实验中对场地完全覆盖且无重叠的配置。
基于CE的行动选择，通过LP求解，为协同覆盖提供了稳定的联合行动策略。
FSR和RBF逼近显著减少了Q函数表示的规模，使多代理环境中的学习具有可扩展性。
在仿真中，基线的独立学习方法未能收敛，而所提出的方法收敛到最优配置。
用两架无人机进行的实际飞行实验在FSR方案下展示了无重叠的场地覆盖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。