QUICK REVIEW

[논문 리뷰] Cooperative and Distributed Reinforcement Learning of Drones for Field Coverage

Huy Xuan Pham, Hung Manh La|arXiv (Cornell University)|2018. 03. 20.

Distributed Control Multi-Agent Systems참고 문헌 27인용 수 69

한 줄 요약

본 논문은 correlation equilibrium과 function approximation을 활용하여 중첩을 최소화하면서 미지의 필드 전체 커버리지를 달성하기 위해 UAV 팀에 대한 분산 다중 에이전트 강화 학습 프레임워크를 제안한다.

ABSTRACT

This paper proposes a distributed Multi-Agent Reinforcement Learning (MARL) algorithm for a team of Unmanned Aerial Vehicles (UAVs). The proposed MARL algorithm allows UAVs to learn cooperatively to provide a full coverage of an unknown field of interest while minimizing the overlapping sections among their field of views. Two challenges in MARL for such a system are discussed in the paper: firstly, the complex dynamic of the joint-actions of the UAV team, that will be solved using game-theoretic correlated equilibrium, and secondly, the challenge in huge dimensional state space representation will be tackled with efficient function approximation techniques. We also provide our experimental results in detail with both simulation and physical implementation to show that the UAV team can successfully learn to accomplish the task.

연구 동기 및 목표

Unknown field 형상의 최적 센싱 커버리지 문제를 모델-프리 방식으로 다루는 도전 과제 해결.
동일한 UAV 팀 간 협력 학습을 가능하게 하여 커버리지를 극대화하고 FOV 중첩을 줄임.
대규모 공동 행동-상태 공간을 효율적인 함수 근사로 처리.
joint actions를 선택하기 위해 game-theoretic correlated equilibrium를 도입.
시뮬레이션 및 물리적 UAV 실험을 통해 효과성 시연.

제안 방법

필드 커버리지를 joint state와 joint action 공간을 갖는 다 에이전트 마르코프 게임으로 형식화한다.
stable joint actions를 결정하기 위해 linear programming으로 해결되는 correlated equilibrium (CE)을 이용한다.
중첩을 최소화한 전체 필드 커버리지를 장려하는 글로벌 팀 보상을 정의한다.
값 함수의 차원을 감소시키기 위해 Fixed Sparse Representation (FSR) 또는 Radial Basis Function (RBF)을 사용한 근사 Q-learning을 적용한다.
Global reward와 CE에서 도출된 행동을 포함하는 분산 규칙으로 Q-값(또는 파라미터 벡터)을 업데이트한다.
충돌 방지를 위한 UAV 간의 행동 선택을 직렬화하는 social conventions 메커니즘을 구현한다.

실험 결과

연구 질문

RQ1CE를 포함한 MARL 프레임워크가 UAV 간 중첩을 최소화하면서 미지의 field를 온전히 커버할 수 있는가?
RQ2FSR 및 RBF 근사 방식이 다-UAV 커버리지 태스크의 확장성 및 수렴에 미치는 영향은 어떠한가?
RQ3사회적 관습(social convention) 기반의 행동 선택이 분산 설정에서 충돌 없는 공동 행동을 보장하는가?
RQ4글로벌 팀 보상을 사용하는 것이 독립 보상에 비해 학습 속도와 수렴에 어떤 영향을 미치는가?

주요 결과

제안된 MARL 접근법은 시뮬레이션 및 물리적 실험에서 UAV 팀이 중첩 없이 필드를 완전히 커버하는 구성을 학습하도록 한다.
CE 기반의 행동 선택은 LP를 통해 협력적 커버리지를 위한 안정적인 공동 행동 정책을 제공한다.
FSR 및 RBF 근사는 Q-함수 표현 크기를 크게 줄여 다에이전트 설정에서의 확장 가능한 학습을 가능하게 한다.
시뮬레이션에서 기저 독립 학습 접근법은 수렴하지 못하는 반면 제안된 방법은 최적 구성으로 수렴한다.
두 대의 드론을 이용한 물리적 UAV 실험에서 FSR 스킴을 사용하여 중첩 없이 성공적으로 필드 커버리지가 이루어졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.