Skip to main content
QUICK REVIEW

[論文レビュー] Succinct and Robust Multi-Agent Communication With Temporal Message Control

Sai Qian Zhang, Jieyu Lin|arXiv (Cornell University)|Oct 27, 2020
Distributed Control Multi-Agent Systems参考文献 37被引用数 28
ひとこと要約

本稿では、時間的スムージングとメッセージバッファリングを用いて、新しい情報が検出された場合にのみメッセージを送信することで、マルチエージェント強化学習におけるエージェント間通信を削減するTemporal Message Control (TMC) を提案する。TMCは、SMAC、Predator-Prey、Cooperative Navigationのベンチマークにおいて、通信オーバーヘッドを最大80%まで低減し、パケット損失が深刻な状況下でも高い性能を維持する。既存手法に比べ、耐障害性と効率性の両面で優れている。

ABSTRACT

Recent studies have shown that introducing communication between agents can significantly improve overall performance in cooperative Multi-agent reinforcement learning (MARL). However, existing communication schemes often require agents to exchange an excessive number of messages at run-time under a reliable communication channel, which hinders its practicality in many real-world situations. In this paper, we present extit{Temporal Message Control} (TMC), a simple yet effective approach for achieving succinct and robust communication in MARL. TMC applies a temporal smoothing technique to drastically reduce the amount of information exchanged between agents. Experiments show that TMC can significantly reduce inter-agent communication overhead without impacting accuracy. Furthermore, TMC demonstrates much better robustness against transmission loss than existing approaches in lossy networking environments.

研究の動機と目的

  • 現実世界の環境における、既存のマルチエージェント通信方式の高い通信オーバーヘッドと低い耐障害性を解決すること。
  • 動的環境における時間的に相関する観測によって引き起こされる冗長なメッセージ交換を低減すること。
  • 帯域制限があり信頼性の低い通信チャネルにおいて、メッセージ損失に対するシステムのレジリエンスを高めること。
  • 通信制約がある状況、例えば自動運転やドローン制御のような応用分野において、マルチエージェント強化学習の実用的導入を可能にすること。
  • グローバル状態に依存せずに、エージェント間通信を著しく削減しながらも高い性能を維持すること。

提案手法

  • TMCは、最後に送信されたメッセージに対して新しい情報が検出された場合にのみメッセージ送信を許可する時間的スムージング機構を導入する。
  • 各エージェントは、冗長なメッセージを罰する正則化項を用い、情報の新規性に基づいた通信のスパarsityを促進する。
  • 受信側では、他エージェントからの最新メッセージのバッファを維持することで、メッセージ損失時でも意思決定が可能になる。
  • バッファリング機構により、事前に受信したデータを用いて失われたメッセージを回復できるため、耐障害性が自然に向上する。
  • TMCは価値分解ネットワーク(例:VDN)と統合され、通信頻度と性能のバランスを取るための学習可能なハイパーパrameterを適用する。
  • メッセージ送信と正則化を制御するため、類似度しきい値(δ)および重みパrameter(λr, β1, β2, λs)を用いる。

実験結果

リサーチクエスチョン

  • RQ1マルチエージェント強化学習におけるエージェント間通信を、性能を損なわせずに著しく効率化できるか?
  • RQ2観測の時間的相関を活用することで、冗長なメッセージ交換をどのように低減できるか?
  • RQ3メッセージバッファリングは、マルチエージェントシステムにおける通信損失に対する耐障害性をどの程度向上できるか?
  • RQ4通信帯域を大幅に削減しながら、極端なパケット損失下でも高い性能を維持できる通信方式は可能か?
  • RQ5損失のある通信環境において、TMCは既存の通信手法と比較して通信オーバーヘッドと耐障害性の両面で優れているか?

主な発見

  • StarCraft Multi-Agent Challenge (SMAC) 環境において、TMCは既存手法と比較して平均勝率を23%高い水準で達成した。
  • Predator-PreyおよびCooperative Navigation環境では、TMC+VDNはベースライン手法と比較して、それぞれ1.24倍および1.35倍の正規化報酬を達成した。
  • 既存手法と比較して、TMCは通信オーバーヘッドを最大80%まで削減した。Predator-PreyおよびCooperative Navigation環境では、平均でそれぞれ3.2倍および2.9倍の削減を達成した。
  • 視線遮断を伴う損失のある通信条件下でも、TMCは高い勝率を維持したが、他の手法はほぼ0%まで低下した。
  • 途切れのある通信環境においても、TMCは優れた耐障害性を示した。メッセージバッファリングにより、パケット損失があっても継続的な協調が可能になった。
  • グローバル状態を必要としないため、分散型で現実世界に適した展開が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。