QUICK REVIEW

[논문 리뷰] Learning Attentional Communication for Multi-Agent Cooperation

Jiechuan Jiang, Zongqing Lu|arXiv (Cornell University)|2018. 05. 20.

Reinforcement Learning in Robotics참고 문헌 26인용 수 241

한 줄 요약

ATOC는 대규모 다중 에이전트 강화학습에서 언제와 누구와 통신할지 학습하며, 주의 단위(attentional unit)와 양방향 LSTM 커뮤니케이션 채널을 사용해 조정 및 확장성을 개선한다.

ABSTRACT

Communication could potentially be an effective way for multi-agent cooperation. However, information sharing among all agents or in predefined communication architectures that existing methods adopt can be problematic. When there is a large number of agents, agents cannot differentiate valuable information that helps cooperative decision making from globally shared information. Therefore, communication barely helps, and could even impair the learning of multi-agent cooperation. Predefined communication architectures, on the other hand, restrict communication among agents and thus restrain potential cooperation. To tackle these difficulties, in this paper, we propose an attentional communication model that learns when communication is needed and how to integrate shared information for cooperative decision making. Our model leads to efficient and effective communication for large-scale multi-agent cooperation. Empirically, we show the strength of our model in a variety of cooperative scenarios, where agents are able to develop more coordinated and sophisticated strategies than existing methods.

연구 동기 및 목표

대역폭이 제한된 상태에서 대규모 다중 에이전트 시스템의 효율적인 협력을 촉진한다.
에이전트가 언제 통신해야 하는지를 결정하는 동적이고 주의 기반 메커니즘을 개발한다.
형성된 그룹 내에서 정보를 선택적으로 공유하는 양방향 LSTM 커뮤니케이션 채널을 제안한다.
정책과 커뮤니케이션의 공동 학습이 가능하도록 정책-비평가(actor-critic) 프레임워크에서 엔드 투 엔드로 모델을 학습시킨다.
협동 및 경쟁적인 다에이전트 시나리오에서 기준선 대비 향상을 입증한다.

제안 방법

에이전트의 인코딩된 관측과 행동 의도를 고려하여 통신이 필요한지의 확률을 출력하는 주의 유닛을 도입한다.
통신이 필요할 때, 발신자는 인근의 소수 협력자를 선택하여 통신 그룹을 형성한다.
그룹 내 에이전트들의 생각을 통합하고 조정된 행동을 위한 통합된 생각을 생성하기 위해 커뮤니케이션 채널로 양방향 LSTM을 사용한다.
통합된 생각을 에이전트의 자체 생각과 결합한 후 정책 네트워크에 입력하여 행동을 산출한다.
Delta Q 차이에 의해 안내되는 주의 단위의 이진 분류기를 포함하는 공유 정책 및 Q-네트워크를 갖춘 DDPG의 확장을 통해 학습한다.
협력 내비게이션, 협력 푸시볼, 포식자-피해자 등 여러 시나리오에서 CommNet, BiCNet, DDPG 등 기준선과 비교한다.

실험 결과

연구 질문

RQ1대규모 MARL에서 주의 기반 커뮤니케이션이 협력과 확장성을 향상시킬 수 있는가?
RQ2동적이고 콘텐츠 인식적인 커뮤니케이션이 대역폭 제약 하에서 전체 연결성 및 미리 정의된 아키텍처를 능가하는가?
RQ3주의 기반 그룹화가 학습 효율성과 다양한 보상 구조(local/global, 경쟁적)에서 최종 성능에 어떤 영향을 미치는가?

주요 결과

N	L	mean_reward (ATOC)	mean_reward (ATOC w/o Comm)	mean_reward (DDPG)	mean_reward (CommNet)	mean_reward (BiCNet)	collisions (ATOC)	collisions (ATOC w/o Comm)	collisions (DDPG)	collisions (CommNet)	collisions (BiCNet)	% occupied landmarks (ATOC)	% occupied landmarks (ATOC w/o Comm)	% occupied landmarks (DDPG)	% occupied landmarks (CommNet)	% occupied landmarks (BiCNet)
50	50	-0.04	-0.22	-0.14	-0.60	-0.52	13	47	32	59	51	92%	40%	22%	12%	16%

ATOC는 협력 내비게이션에서 기준선(CommNet, BiCNet, DDPG)보다 더 나은 성과를 내며 평균 보상을 높이고 충돌 수를 줄였다.
커뮤니케이션은 이익이다: 커뮤니케이션이 있는 ATOC가 없는 ATOC보다 더 나은 성능을 보였다.
동적이고 주의 기반 커뮤니케이션은 불필요한 정보 교환을 줄이고 전체 연결 기준선보다 더 많은 에이전트를 수용하는 확장성을 제공한다.
양방향 LSTM 커뮤니케이션 채널은 정보를 선택적으로 보유하고 전파하여 단순 평균화 방식보다 더 잘 조정된 그룹 전략을 가능하게 한다.
시각화는 커뮤니케이션 활동이 밀집하거나 복잡한 영역에 집중되고 협조가 안정되면서 감소한다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.