Skip to main content
QUICK REVIEW

[論文レビュー] Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity

Kaiqing Zhang, Sham M. Kakade|arXiv (Cornell University)|Jul 15, 2020
Reinforcement Learning in Robotics参考文献 69被引用数 24
ひとこと要約

この論文は、生成モデルを用いた2人ゼロ和マルコフゲームにおけるモデルベース多エージェント強化学習の、最初の近似的最小最大最適なサンプル複雑度を確立した。この手法は、報酬に依存しない設定では最小最大最適性が対数要因を除き達成され、報酬に依存する設定ではほぼ最適な $\tilde{\mathcal{O}}(|\mathcal{S}||\mathcal{A}||\mathcal{B}|(1-\gamma)^{-3}\epsilon^{-2})$ のサンプル複雑度を達成することが示された。これは $\epsilon$-ナッシュ均衡を求めるものである。

ABSTRACT

Model-based reinforcement learning (RL), which finds an optimal policy using an empirical model, has long been recognized as one of the corner stones of RL. It is especially suitable for multi-agent RL (MARL), as it naturally decouples the learning and the planning phases, and avoids the non-stationarity problem when all agents are improving their policies simultaneously using samples. Though intuitive and widely-used, the sample complexity of model-based MARL algorithms has not been fully investigated. In this paper, our goal is to address the fundamental question about its sample complexity. We study arguably the most basic MARL setting: two-player discounted zero-sum Markov games, given only access to a generative model. We show that model-based MARL achieves a sample complexity of $ ilde O(|S||A||B|(1-γ)^{-3}ε^{-2})$ for finding the Nash equilibrium (NE) value up to some $ε$ error, and the $ε$-NE policies with a smooth planning oracle, where $γ$ is the discount factor, and $S,A,B$ denote the state space, and the action spaces for the two agents. We further show that such a sample bound is minimax-optimal (up to logarithmic factors) if the algorithm is reward-agnostic, where the algorithm queries state transition samples without reward knowledge, by establishing a matching lower bound. This is in contrast to the usual reward-aware setting, with a $ ildeΩ(|S|(|A|+|B|)(1-γ)^{-3}ε^{-2})$ lower bound, where this model-based approach is near-optimal with only a gap on the $|A|,|B|$ dependence. Our results not only demonstrate the sample-efficiency of this basic model-based approach in MARL, but also elaborate on the fundamental tradeoff between its power (easily handling the more challenging reward-agnostic case) and limitation (less adaptive and suboptimal in $|A|,|B|$), particularly arises in the multi-agent context.

研究の動機と目的

  • 生成モデルを用いた2人ゼロ和マルコフゲームにおけるモデルベース多エージェント強化学習のサンプル複雑度を分析すること。
  • 単純なモデルベースアプローチ(まずモデルを学習し、その後計画を行う)が、近似的に最適なサンプル効率を達成するかどうかという根本的な問いに答えること。
  • 特にサンプル複雑度の下界の観点から、MARLにおける報酬に依存する設定と報酬に依存しない設定の違いを明確にすること。
  • 報酬に依存しない設定において、一致する下界を確立し、最小最大最適性(対数要因を除いて)を証明すること。
  • この手法の強み(複数の報酬関数を再サンプリングせずに扱えること)と限界(報酬に依存する設定において $|A|$ および $|B|$ に劣った依存関係を示すこと)のトレードオフを明確にすること。

提案手法

  • この手法は、まず生成モデルを用いてデータをサンプリングし、そのデータから遷移モデルを推定するモデルベースのアプローチを採用し、その後計画を実行して均衡戦略を計算する。
  • 滑らかな計画オラクルを活用して、経験的モデルにおけるナッシュ均衡戦略を計算し、$\epsilon$-ナッシュ均衡への収束を保証する。
  • 集中不等式と高確率の逸脱バウンドを用いて、価値関数推定の誤差を制限し、生成モデルのi.i.d.サンプリング特性に依存する。
  • この手法により、$\epsilon$-ナッシュ均衡を達成するためのサンプル複雑度の上限が $\tilde{\mathcal{O}}(|\mathcal{S}||\mathcal{A}||\mathcal{B}|(1-\gamma)^{-3}\epsilon^{-2})$ であることが導出された。
  • 報酬に依存しない設定において、一致する下界が確立され、最小最大最適性(対数要因を除いて)が証明された。
  • 報酬に依存する設定と報酬に依存しない設定を区別し、報酬に依存する設定では近似的に最適であり、報酬に依存しない設定では最適であることが示された。

実験結果

リサーチクエスチョン

  • RQ1生成モデルへのアクセスを前提とした2人ゼロ和マルコフゲームにおけるモデルベースMARLのサンプル複雑度は何か?
  • RQ2報酬がデータ収集時に使われない報酬に依存しない設定において、モデルベースアプローチは最小最大最適か?
  • RQ3報酬に依存する設定において、モデルベースアプローチのサンプル複雑度は情報理論的下界とどのように比較されるか?
  • RQ4この手法の複数の報酬関数を扱える能力と、行動空間サイズ $|A|$ および $|B|$ への依存関係の間の根本的トレードオフは何か?
  • RQ5報酬に依存しない設定において、上界と一致する下界を確立でき、最小最大最適性を証明できるか?

主な発見

  • モデルベースMARLアプローチは、2人ゼロ和マルコフゲームにおいて、$\epsilon$-ナッシュ均衡を求めるためのサンプル複雑度 $\tilde{\mathcal{O}}(|\mathcal{S}||\mathcal{A}||\mathcal{B}|(1-\gamma)^{-3}\epsilon^{-2})$ を達成する。
  • 報酬がモデルのサンプリング時に使われない報酬に依存しない設定では、このサンプル複雑度は対数要因を除いて最小最大最適である。
  • 報酬に依存する設定では、下界 $\tilde{\Omega}(|\mathcal{S}|(|\mathcal{A}|+|\mathcal{B}|)(1-\gamma)^{-3}\epsilon^{-2})$ と比較して、$|A|$ および $|B|$ への依存関係にわずかなギャップがあるが、近似的に最適である。
  • この手法は非常にサンプル効率が良く、サンプル複雑度が報酬関数の数ではなく、状態空間と行動空間サイズの積に比例する。
  • 同じモデルを異なる報酬関数に再利用できるため、再サンプリングなしに複数の報酬関数を扱えるという強力な利点がある。
  • 解析により、根本的なトレードオフが明らかになった:報酬に依存しない設定では、この手法は頑健で効率的であるが、報酬に依存する設定では、$|A|$ および $|B|$ への依存関係により、柔軟性に欠け、非最適である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。