Skip to main content
QUICK REVIEW

[論文レビュー] Decentralized Likelihood Quantile Networks for Improving Performance in Deep Multi-Agent Reinforcement Learning

Xueguang Lu, Christopher Amato|arXiv (Cornell University)|Dec 15, 2018
Reinforcement Learning in Robotics参考文献 20被引用数 1
ひとこと要約

本稿では、価値過大評価の自動スケジューリングにより、深層マルチエージェント強化学習におけるサンプル効率と収束性を向上させるために、分散型尤度分位数ネットワーク(DLQN)を提案する。分散的にリターン分布の分位数を推定することで、DLQNは学習を安定化させ、部分的に最適でないチームメイトの行動が存在する状況でも、エージェントが連携最適方策に収束することを可能にする。

ABSTRACT

Recent successes of value-based multi-agent deep reinforcement learning employ optimism by limiting underestimation updates of value function estimator, through carefully controlled learning rate (Omidshafiei et al., 2017) or reduced update probability (Palmer et al., 2018). To achieve full cooperation when learning independently, an agent must estimate the state values contingent on having optimal teammates; therefore, value overestimation is frequency injected to counteract negative effects caused by unobservable teammate sub-optimal policies and explorations. Aiming to solve this issue through automatic scheduling, this paper introduces a decentralized quantile estimator, which we found empirically to be more stable, sample efficient and more likely to converge to the joint optimal policy.

研究の動機と目的

  • 観察不能な部分最適なチームメイトの行動や探索行動に起因するマルチエージェント深層強化学習における価値関数の過小評価の問題に対処すること。
  • 独立学習におけるマルチエージェントシステムの学習安定性とサンプル効率を向上させること。
  • 中央集権的調整なしに、価値過大評価の自動スケジューリングによりエージェントが連携最適方策に収束できるようにすること。
  • 学習率や更新確率といった固定ハイパーパrameterに依存する従来手法の限界を克服すること。

提案手法

  • 各エージェントが中央集権的調整なしに個別に推定できるように、分位数ネットワークを用いてリターン分布をモデル化する分散型分位数推定器を導入する。
  • 尤度に基づく訓練により分位数ネットワークのパラメータを最適化し、頑健で安定した分布推定を実現する。
  • 分位数分布を通じて価値過大評価を動的にスケジューリングすることで、固定された楽観的ヒューリスティクスへの依存を低減する。
  • 各エージェントごとに別々の分位数ヘッドを維持することで、価値推定と方策学習を分離し、独立学習を支援する。
  • 分位数ネットワークの訓練に尤度ベースの目的関数を適用し、キャリブレーションと収束特性を向上させる。
  • 各エージェントが局所的な観測と行動のみを用いて自らの価値関数を推定できるようにすることで、分散性を確保する。

実験結果

リサーチクエスチョン

  • RQ1分散型分位数ベースの手法は、独立的マルチエージェント深層強化学習における安定性とサンプル効率を向上させることができるか?
  • RQ2分位数推定を通じた価値過大評価の自動スケジューリングは、連携最適方策への収束性を向上させるか?
  • RQ3本手法は、固定学習率や固定更新確率に基づく既存の楽観的アプローチと比較してどのように異なるか?
  • RQ4本手法は、観察不能なチームメイトの部分最適性や探索行動に起因する性能低下をどの程度軽減できるか?

主な発見

  • 提案された分散型尤度分位数ネットワーク(DLQN)は、固定された楽観的ヒューリスティクスに依存するベースライン手法と比較して、より優れた学習安定性を達成する。
  • DLQNは高いサンプル効率を示し、収束に必要な環境との相互作用回数を削減する。
  • 協調的マルチエージェント環境において、連携最適方策への収束確率がより高くなる。
  • 実験的結果から、分位数推定による価値過大評価の自動スケジューリングが、固定レートおよび固定確率の楽観的戦略を上回ることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。