Skip to main content
QUICK REVIEW

[論文レビュー] Reducing Overestimation Bias in Multi-Agent Domains Using Double Centralized Critics

Johannes Ackermann, Volker Gabler|arXiv (Cornell University)|Oct 3, 2019
Reinforcement Learning in Robotics参考文献 25被引用数 70
ひとこと要約

本論文はマルチエージェント強化学習における過大評価バイアスを同定し、過大評価を緩和して協調-競合タスクおよび高次元ロボティクス設定での性能を向上させるダブル中央クリティックを用いた MATD3 を提案する。

ABSTRACT

Many real world tasks require multiple agents to work together. Multi-agent reinforcement learning (RL) methods have been proposed in recent years to solve these tasks, but current methods often fail to efficiently learn policies. We thus investigate the presence of a common weakness in single-agent RL, namely value function overestimation bias, in the multi-agent setting. Based on our findings, we propose an approach that reduces this bias by using double centralized critics. We evaluate it on six mixed cooperative-competitive tasks, showing a significant advantage over current methods. Finally, we investigate the application of multi-agent methods to high-dimensional robotic tasks and show that our approach can be used to learn decentralized policies in this domain.

研究の動機と目的

  • マルチエージェント強化学習における価値関数の過大評価バイアスの存在を動機づけ、理解する。
  • ダブル中央クリティックを使用して過大評価バイアスを低減する新しい MARL アルゴリズムを提案する。
  • 粒子環境における六つの混合協調-競合タスクで提案手法を評価する。
  • 高次元ロボティクタクタの完全分散ポリシー学習への適用性を示す。

提案手法

  • 中央訓練・分散実行を用いて TD3 をマルチエージェント設定へ拡張する。
  • 各エージェントにつき2つの中央クリティックを用い、最小値を取ってターゲット y_i を形成し過大評価を抑制する。
  • Critic 更新時に次の行動へクリップしたガウシアンノイズを加えることでターゲットポリシースムージングを適用する。
  • 遅延ポリシー更新を組み込み、クリティックがポリシー更新前に十分に正確になるようにする。
  • 学習中は最初のクリティックを用いてポリシーを更新し、安定したターゲットを得るために二つ目のクリティックを保持する。

実験結果

リサーチクエスチョン

  • RQ1MADDPG のようなマルチエージェント領域で過大評価バイアスは残るのか、それは学習性能にどのように影響するのか?
  • RQ2ダブル中央クリティック機構(MATD3)は過大評価バイアスを低減し、混合協調-競合 MARL タスクの性能を向上させるのか?
  • RQ3MATD3 は協調環境と敵対環境、および高次元ロボティック設定で MADDPG とどう比較されるのか?
  • RQ4遅延ポリシー更新とターゲットポリシースムージングはこれらの領域で MARL の性能に影響を与えるのか?

主な発見

  • MADDPG は協調的 MARL タスクで Q 値を過大評価しがちで、最終性能の低下と相関する。
  • MATD3 はほとんどの粒子領域タスクで MADDPG を大幅に上回り、特に協調環境で顕著である。
  • 対戦的領域では MATD3 は複数のタスクで MADDPG を上回るが、Covert Communication のようなタスクでは MADDPG がより速く適応できる場合がある。
  • 遅延ポリシー更新は分散する変動を抑え、ほとんどのタスクで最終性能を向上させるが、Covert Communication のような例外もある。
  • ターゲットポリシースムージングは MARL 設定で明らかな利点を示さなかった。
  • 分散型ロボット制御(Ant-v2 split)において、 MATD3 は MADDPG および独立学習者を上回り、高次元タスクへのスケーラビリティを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。