Skip to main content
QUICK REVIEW

[論文レビュー] Delay-Aware Multi-Agent Reinforcement Learning.

Baiming Chen, Mengdi Xu|arXiv (Cornell University)|May 11, 2020
Traffic control and management参考文献 32被引用数 6
ひとこと要約

本稿では、行動および観測遅延を遅延対応マルコフゲームを介してモデル化する遅延対応マルチエージェント強化学習フレームワークを提案する。中央集権的訓練と分散型実行を組み合わせることで、非定常性と性能劣化を軽減する。実験の結果、協調的ナビゲーション、通信、競争、実世界の交通調整を含む遅延環境において顕著な性能向上が得られた。

ABSTRACT

Action and observation delays exist prevalently in the real-world cyber-physical systems which may pose challenges in reinforcement learning design. It is particularly an arduous task when handling multi-agent systems where the delay of one agent could spread to other agents. To resolve this problem, this paper proposes a novel framework to deal with delays as well as the non-stationary training issue of multi-agent tasks with model-free deep reinforcement learning. We formally define the Delay-Aware Markov Game that incorporates the delays of all agents in the environment. To solve Delay-Aware Markov Games, we apply centralized training and decentralized execution that allows agents to use extra information to ease the non-stationary issue of the multi-agent systems during training, without the need of a centralized controller during execution. Experiments are conducted in multi-agent particle environments including cooperative communication, cooperative navigation, and competitive experiments. We also test the proposed algorithm in traffic scenarios that require coordination of all autonomous vehicles to show the practical value of delay-awareness. Results show that the proposed delay-aware multi-agent reinforcement learning algorithm greatly alleviates the performance degradation introduced by delay. Codes available at: this https URL.

研究の動機と目的

  • 実世界のマルチエージェントサイバーフィジカルシステムにおける行動および観測遅延の課題に対処すること。
  • マルチエージェント強化学習におけるエージェント相互作用の遅延によって引き起こされる非定常な学習問題に取り組むこと。
  • 推論時に中央集権コントローラーを必要とせず、学習中に遅延を明示的に扱うモデルフリーの深層強化学習手法を開発すること。
  • 自動車交通管理などの複雑な協調タスクにおける実用的適用性を実証すること。

提案手法

  • すべてのエージェントの遅延を環境ダイナミクスに組み込んだ遅延対応マルコフゲームを形式的に定義する。
  • 遅延した状態および行動履歴へのアクセスを有する中央集権的訓練により、学習の安定化と非定常性の低減を図る。
  • 分散型実行により、エージェントは局所的観測と内部記憶に基づいて行動し、中央コントローラーへの依存を回避する。
  • 遅延フィードバック下での学習安定化を図るため、マルチエージェントDQNに類似したアーキテクチャで経験再生とターゲットネットワークを活用する。
  • 経験バッファに遅延観測および遅延行動を統合し、時間的依存関係を保持する。
  • 遅延状態-行動ペアを用いた価値ベースの深層強化学習を適用し、遅延環境におけるポリシー学習を改善する。

実験結果

リサーチクエスチョン

  • RQ1行動および観測遅延はマルチエージェント強化学習における性能にどのように悪影響を及ぼすか?
  • RQ2遅延情報を利用した中央集権的訓練は、遅延のあるマルチエージェント環境における学習安定性と性能を向上させ得るか?
  • RQ3遅延対応モデリングは、協調的および競争的マルチエージェントタスクにおける性能劣化をどの程度軽減できるか?
  • RQ4提案手法は、通信遅延下での自動車協調といった実世界のシナリオにどの程度一般化可能か?

主な発見

  • 提案アルゴリズムは、協調的ナビゲーションおよび通信タスクにおける遅延による性能劣化を顕著に低減した。
  • 競争的マルチエージェント環境において、遅延フィードバック下でも標準的なマルチエージェントRLに比べ、性能を維持または向上させた。
  • 著しい遅延が存在する状況でも、安定した学習と収束を達成し、遅延マルコフゲームにおいてベースライン手法を上回る性能を示した。
  • 交通調整シナリオでは、通信およびセンシング遅延が存在する中でも、自動車間の効果的な協調を可能にした。
  • 中央集権的訓練と分散型実行の戦略は、推論時にリアルタイム協調を必要とせず、非定常性を効果的に緩和した。
  • 実験的結果は、遅延を明示的にモデル化することで、実世界の応用に適した状況においてより強固で信頼性の高いマルチエージェントポリシーが得られることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。