QUICK REVIEW

[논문 리뷰] Learning Efficient Multi-agent Communication: An Information Bottleneck Approach

Rundong Wang, Xu He|arXiv (Cornell University)|2019. 11. 16.

Reinforcement Learning in Robotics참고 문헌 21인용 수 38

한 줄 요약

IMAC은 정보 병목을 활용하여 정보가 풍부하고 엔트로피가 낮은 의사소통 프로토콜과 가중치 기반 스케줄러를 학습해 다중 에이전트 강화학습에서 제한된 대역폭 문제를 다루고, 수렴 속도를 더 빠르게 하며 baselines보다 의사소통이 더 효율적이다.

ABSTRACT

We consider the problem of the limited-bandwidth communication for multi-agent reinforcement learning, where agents cooperate with the assistance of a communication protocol and a scheduler. The protocol and scheduler jointly determine which agent is communicating what message and to whom. Under the limited bandwidth constraint, a communication protocol is required to generate informative messages. Meanwhile, an unnecessary communication connection should not be established because it occupies limited resources in vain. In this paper, we develop an Informative Multi-Agent Communication (IMAC) method to learn efficient communication protocols as well as scheduling. First, from the perspective of communication theory, we prove that the limited bandwidth constraint requires low-entropy messages throughout the transmission. Then inspired by the information bottleneck principle, we learn a valuable and compact communication protocol and a weight-based scheduler. To demonstrate the efficiency of our method, we conduct extensive experiments in various cooperative and competitive multi-agent tasks with different numbers of agents and different bandwidths. We show that IMAC converges faster and leads to efficient communication among agents under the limited bandwidth as compared to many baseline methods.

연구 동기 및 목표

협력적 MARL에서 제한된 대역폭 문제를 동기부여하고 형식화한다.
정보가 풍부하고 엔트로피가 낮은 의사소통 프로토콜을 학습하는 방법을 개발한다.
정보 이론적 정규화를 통해 학습된 가중치 기반 스케줄러를 소개한다.
협력적 및 경쟁적 작업 전반에서 수렴 및 효율성의 개선을 보여준다.

제안 방법

메시지를 연속 확률 벡터로 모델링하고 대역폭을 메시지 엔트로피를 통해 소스 부호화 및 Nyquist 원리와 연관시킨다.
입력과 메시지 간의 상호 정보(I(H_i; M_i))를 I_c 이하로 제약하고 압축된 목적하에 Q-함수를 최대화하기 위해 변분 정보 병목을 적용한다.
가우시안 사전 z(m_i)으로 KL-발산 기반의 상한을 사용하여 IB 규제를 실용적인 최적화 목표에 구현한다.
스케줄러를 가상 에이전트로 처리하고 동일한 IB 규제를 적용해 가중치 기반의 스케줄링 메커니즘을 학습한다.
실행 중 저엔트로피 메시지를 강제하고 대역폭 제약을 시뮬레이션하기 위해 배치 정규화와 유사한 층을 구현한다.
centralized training/decentralized execution 프레임워크 하에서 통신 프로토콜, 에이전트 정책, 스케줄러의 공동 학습을 가능하게 한다.

실험 결과

연구 질문

RQ1MARL에서 제한된 대역폭이 전송되는 메시지의 엔트로피를 어떻게 제약하는가?
RQ2정보 병목 규제가 대역폭 제약 하에서 학습을 향상시키는 정보가 풍부하고 엔트로피가 낮은 의사소통 프로토콜을 산출하는가?
RQ3동일한 정보 이론 원칙 하에서 프로토콜 학습과 스케줄링을 통합할 수 있는가?
RQ4다양한 에이전트 수 및 대역폭에서 IB 기반의 IMAC 접근법이 협력적 및 경쟁적 MARL 작업의 성능과 수렴을 개선하는가?

주요 결과

IMAC은 제한된 대역폭 하에서 저엔트로피 메시지를 학습하고 baselines에 비해 더 빠른 수렴을 달성한다.
협력적 작업들(협력적 내비게이션, 포식자-피해자) 및 StarCraft II 시나리오 전반에서 IMAC은 TarMAC, GACML, SchedNet, MADDPG(의사소통 포함)보다 일관되게 우수한 성능을 보인다.
IMAC은 더 많은 에이전트(예: 5, 10)로 확장해도 우수한 성능과 더 빠른 학습 곡선을 유지한다.
IB 기반 규제가 실행 중 다양한 대역폭 수준에 대한 강건성을 제공하며 대역폭 제약 하에서 비압축 의사소통 기준선보다 우수한 성능을 보인다.
IB 사전 z(m_i)와 압축 강도 beta의 선호 선택은 성능에 결정적으로 영향을 미치며, 중간 정도의 압축이 최상의 결과를 낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.