Skip to main content
QUICK REVIEW

[論文レビュー] Multiagent Soft Q-Learning

Ermo Wei, Drew Wicke|arXiv (Cornell University)|Apr 25, 2018
Reinforcement Learning in Robotics参考文献 22被引用数 45
ひとこと要約

本論文は、Multiagent Soft Q-Learning を提案する。これはオフポリシーで中央訓練/分散実行を行う手法で、ソフトQ学習と深いエネルギー基盤ポリシーを用いて、協調的連続ゲームにおける相対的過一般化を緩和し、共同行動の調整を改善する。

ABSTRACT

Policy gradient methods are often applied to reinforcement learning in continuous multiagent games. These methods perform local search in the joint-action space, and as we show, they are susceptable to a game-theoretic pathology known as relative overgeneralization. To resolve this issue, we propose Multiagent Soft Q-learning, which can be seen as the analogue of applying Q-learning to continuous controls. We compare our method to MADDPG, a state-of-the-art approach, and show that our method achieves better coordination in multiagent cooperative tasks, converging to better local optima in the joint action space.

研究の動機と目的

  • 連続アクションを持つ協調型マルチエージェント強化学習における協調の課題と相対的過一般化の病理を動機づける。
  • 連続ゲームにおける協調を向上させるための中央訓練・分散実行フレームワークを提案する。
  • 過一般化を回避し、共同行動空間における局所最適解を改善するため、ソフトQ学習と深いエネルギー基盤ポリシーを統合した Multiagent Soft Q-Learning 手法を開発する。

提案手法

  • 協調的確率的ゲームの枠組みで問題を定式化し、ポリシー勾配法における相対的過一般化病理を分析する。
  • 深いエネルギーに基づくポリシーを備えたSoft Q-Learningを採用し、多峰性の行動分布を可能にして共同行動空間の探索を改善する。
  • エージェント間で共有される中央化 critic と各エージェントのポリシーを用い、エントロピー温度 alpha のアニーリングを行い探索を促進しその後収束させる。
  • エージェントが中央の Q 関数を介して共同行動ポリシーを学習し、SVGD を用いた近似のソフトマックス風エネルギー基盤ポリシーからサンプリングする多エージェント拡張を説明・実装する。
  • 中央化 critic の更新と各エージェントの共同行動ポリシー更新を概説する Algorithm 1 を提供する。
  • 2エージェント・単一状態の連続ゲームにおける実証評価を実施し、MADDPG と比較してより良い均衡への収束を示す。

実験結果

リサーチクエスチョン

  • RQ1連 Centralized training with a soft Q-learning based approach overcome relative overgeneralization in cooperative continuous games?
  • RQ2Does employing deep energy-based policies with entropy regularization improve multimodal exploration and coordination in the joint action space?
  • RQ3How does Multiagent Soft Q-Learning compare to MADDPG in terms of convergence to better local optima in cooperative tasks?
  • RQ4What is the effect of annealing the temperature parameter alpha on discovering and locking onto better joint actions?

主な発見

  • Multiagent Soft Q-Learning はMADDPGよりも頻繁により良い均衡へ収束した(72% 対 MADDPG はMADDPG がより良い均衡へ収束しなかった)。
  • アルファのアニーリングは、グローバルな共同行動探索からより良い共同行動の活用へと移行するのを助け、協調を改善する。
  • このアプローチは中央訓練を活用して joint-action Q 関数へアクセスしつつ分散実行を維持し、共適応を低減する。
  • この手法は Soft Q-Learning の利点を受け継ぎ、多峰性の行動分布と連続ゲームにおける共同行動空間の探索を改善する。
  • 実証評価は Max of Two Quadratics ゲームを用いて、共同行動空間における協調と局所最適解の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。