QUICK REVIEW

[論文レビュー] Cooperative and Distributed Reinforcement Learning of Drones for Field Coverage

Huy Xuan Pham, Hung Manh La|arXiv (Cornell University)|Mar 20, 2018

Distributed Control Multi-Agent Systems参考文献 27被引用数 69

ひとこと要約

本論文は、複数のUAVチームが、未知の場の全域をカバーしつつ重複を最小化するための、分散型マルチエージェント強化学習フレームワークを提案し、相関均衡と関数近似を用いる。

ABSTRACT

This paper proposes a distributed Multi-Agent Reinforcement Learning (MARL) algorithm for a team of Unmanned Aerial Vehicles (UAVs). The proposed MARL algorithm allows UAVs to learn cooperatively to provide a full coverage of an unknown field of interest while minimizing the overlapping sections among their field of views. Two challenges in MARL for such a system are discussed in the paper: firstly, the complex dynamic of the joint-actions of the UAV team, that will be solved using game-theoretic correlated equilibrium, and secondly, the challenge in huge dimensional state space representation will be tackled with efficient function approximation techniques. We also provide our experimental results in detail with both simulation and physical implementation to show that the UAV team can successfully learn to accomplish the task.

研究の動機と目的

未知の場形状を持つ最適なセンシングカバーを、モデルフリーなアプローチで対処する。
同一形状のUAVチーム間で協調学習を可能にし、カバー範囲を最大化し視野FOVの重複を減らす。
効率的な関数近似を用いて大規模な結合行動-状態空間を扱う。
ゲーム理論的相関均衡を組み込み、結合行動を選択する。
シミュレーションと実機UAV実験を通じて有効性を示す。

提案手法

場のカバーを、結合状態空間と結合行動空間を持つマルコフゲームとして定式化する。
線形計画法で解かれる相関均衡（CE）を用いて安定な結合行動を決定する。
最小の重複で全域をカバーするよう報酬を促進するグローバルなチーム報酬を定義する。
近似Q学習を、Fixed Sparse Representation (FSR) または Radial Basis Function (RBF) を用いて、価値関数の次元を削減する。
グローバル報酬とCE由来の行動を取り入れる分散ルールを用いてQ値（またはパラメータベクトル）を更新する。
UAV間の衝突を避けるため、アクション選択を直列化するソーシャル・コンベンション機構を実装する。

実験結果

リサーチクエスチョン

RQ1CEを用いたMARLフレームワークは、未知の場を完全にカバーしつつUAV間の重複を最小化できるか？
RQ2多UAVのカバレッジタスクにおけるFSRとRBFの関数近似は、スケーラビリティと収束性の観点でどう比較されるか？
RQ3分散設定でソーシャル・コンベンションに基づくアクション選択は衝突のない結合行動を保証するか？
RQ4独立報酬と比較して、グローバルなチーム報酬の使用が学習速度と収束に与える影響はどれか？

主な発見

提案されたMARLアプローチは、シミュレーションと実機実験の両方で、重複のない全域カバーを実現するUAVチームの構成を学習可能にする。
LPによって解かれるCEベースのアクション選択は、協調カバーのための安定した結合行動ポリシーを提供する。
FSRおよびRBF近似はQ関数の表現サイズを大幅に削減し、多-agent環境でのスケーラブルな学習を可能にする。
シミュレーションでは、ベースラインの独立学習アプローチは収束しないのに対し、提案手法は最適な構成へ収束する。
2機のドローンを用いた実機UAV実験で、FSRスキームを用いて重複なしの場のカバーを実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。