QUICK REVIEW

[논문 리뷰] Guided Deep Reinforcement Learning for Swarm Systems

Maximilian Hüttenrauch, Adrian Šošić|arXiv (Cornell University)|2017. 09. 18.

Reinforcement Learning in Robotics참고 문헌 6인용 수 100

한 줄 요약

논문은 글로벌 상태에 접근 가능한 중앙 크리틱이 동형 군집 에이전트의 학습을 가이드하는 Actor-Critic 프레임워크를 제안하며, 각 에이전트는 지역 관찰에 기반해 작동하고 협력 작업(그래프 구축 및 목표 위치 탐지)을 시뮬레이션된 군집에서 수행한다.

ABSTRACT

In this paper, we investigate how to learn to control a group of cooperative agents with limited sensing capabilities such as robot swarms. The agents have only very basic sensor capabilities, yet in a group they can accomplish sophisticated tasks, such as distributed assembly or search and rescue tasks. Learning a policy for a group of agents is difficult due to distributed partial observability of the state. Here, we follow a guided approach where a critic has central access to the global state during learning, which simplifies the policy evaluation problem from a reinforcement learning point of view. For example, we can get the positions of all robots of the swarm using a camera image of a scene. This camera image is only available to the critic and not to the control policies of the robots. We follow an actor-critic approach, where the actors base their decisions only on locally sensed information. In contrast, the critic is learned based on the true global state. Our algorithm uses deep reinforcement learning to approximate both the Q-function and the policy. The performance of the algorithm is evaluated on two tasks with simple simulated 2D agents: 1) finding and maintaining a certain distance to each others and 2) locating a target.

연구 동기 및 목표

제한된 센싱으로 군집의 협력 정책 학습 문제 해결
학습 중 전체 상태를 가진 중앙 크리틱을 활용하되, 에이전트는 지역적으로 관찰된 정보로 작동
동형 에이전트의 엔드-투-엔드 심층 RL을 두 가지 군집 과제에서 시연
다양한 군집 크기에 따른 확장성 평가 및 가이드 학습과 비가이드 학습 비교

제안 방법

글로벌 상태를 사용하여 joint actions를 평가하는 중앙집중식 가이드 크리틱이 있는 Actor-Critic 프레임워크를 사용
에이전트는 글로벌 상태가 아닌 지역 관찰 이력에 기반하여 정책을 실행
에이전트가 지역 관찰에 기반해 작동하는 동안 Q-함수를 학습하기 위해 글로벌 군집 상태를 축약 벡터로 표현
군집을 동형 에이전트가 H 이력에서 μ를 공유하는 단일 정책으로 구성된 군집 MDP로 모델링
가변 이웃 수를 다루기 위한 히스토그램 기반 고정 크기 관찰 표현 도입
경험 재생 및 느린 타깃 네트워크를 사용한 DDPG/DRL 관행에 따른 학습
Kilobot에서 영감을 받은 두 가지 시뮬레이션 과제 제시: 그래프 구축(간선을 최대화하기 위해 간 거리 유지)와 목표 위치 탐지(협력적 탐색)
분산 로컬 에이전트를 위한 결정론적 정책 그라디언트를 채택하고, μ(h^i)로부터 모든 에이전트의 결합 행동을 이용한 중앙 크리틱 업데이트를 수행

실험 결과

연구 질문

RQ1가이드 학습이 중앙 크리틱을 통해 부분 관찰성 하의 군집 시스템에 효과적인 정책을 가능하게 하는가?
RQ2학습 및 평가 중 에이전트 수에 따라 정책 성능이 어떻게 확장되는가?
RQ3군집 작업에 가이드 학습이 필요한가, 아니면 비가이드 결합 히스토리 Q-학습으로도 성공할 수 있는가?
RQ4커뮤니케이션 및 관찰 모델링 선택(히스토그램 입력)이 학습 결과에 어떤 영향을 미치는가?
RQ5학습된 정책은 작업 간(그래프 구축 vs 위치 추정) 및 에이전트 수에 따라 어떻게 다른가?

주요 결과

2–8명의 에이전트에 대해 두 과제에서 분산 정책 학습에 성공했으며, 더 많은 에이전트일수록 학습이 더 어려움
가이드 크리틱으로 학습된 정책이 비가이드 방식보다 성능이 우수했고, 특히 joint history Q-learning이 실패한 그래프 과제에서 우수함
위치 추정 과제에서 에이전트 간 커뮤니케이션이 있는 정책이 커뮤니턴 수가 증가할수록 커뮤니케이션이 없는 경우보다 성능이 우수함
학습된 전략이 다르게 나타나며, 적은 에이전트에서는 원형 움직임의 소그룹, 더 많은 에이전트에서는 더 큰 집합이 형성됨
고차원 센서 입력에서 행동까지의 엔드-투-엔드 학습이 가능하며 수작업으로 특징을 설계할 필요가 없음을 보여줌

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.