QUICK REVIEW

[論文レビュー] Multi-agent Reinforcement Learning in Sequential Social Dilemmas

Joel Z. Leibo, Vinícius Zambaldi|arXiv (Cornell University)|Feb 10, 2017

Evolutionary Game Theory and Cooperation参考文献 40被引用数 274

ひとこと要約

論文はSequential Social Dilemmas (SSDs) を時系列的に拡張されたマルコフゲームとして定義し、独立した深層Q学習エージェントがGatheringとWolfpackの2つの環境で協調または背信を学習する様子を研究し、環境要因が協調行動に影響を与える様子を示し、MGSDモデルとの違いを浮き彫りにする。

ABSTRACT

Matrix games like Prisoner's Dilemma have guided research on social dilemmas for decades. However, they necessarily treat the choice to cooperate or defect as an atomic action. In real-world social dilemmas these choices are temporally extended. Cooperativeness is a property that applies to policies, not elementary actions. We introduce sequential social dilemmas that share the mixed incentive structure of matrix game social dilemmas but also require agents to learn policies that implement their strategic intentions. We analyze the dynamics of policies learned by multiple self-interested independent learning agents, each using its own deep Q-network, on two Markov games we introduce here: 1. a fruit Gathering game and 2. a Wolfpack hunting game. We characterize how learned behavior in each domain changes as a function of environmental factors including resource abundance. Our experiments show how conflict can emerge from competition over shared resources and shed light on how the sequential nature of real world social dilemmas affects cooperation.

研究の動機と目的

逐次的ソーシャルディレンマ（SSDs）を導入して、時間的に拡張された協調/背信を捉える。
SSDsはMGSDsの混合インセンティブを保持しつつ、ポリシー水準の協力を要求することを示す。
環境要因（資源豊富さ、対立コスト）が学習された行動をどのように形づくるかを分析する。
独立した学習エージェントがMGSDモデルとは異なる協調ダイナミクスを明らかにすることを示す。

提案手法

協力/背信ポリシーから生じる経験的利得行列の形をとる部分観察可能性を持つマルコフゲームとしてSSDsを定義する。
Emergent behaviorを研究するために、2人用の部分観察可能マルコフゲーム（GatheringとWolfpack）を用いる。
ε-greedy探索とリプレイバッファを用いた独立した深層Qネットワーク（DQN）学習器でポリシーを学習する。
協力政策と背信政策をサンプリングして経験的ゲーム理論分析（EGTA）を通じて経験的利得行列を計算する。
環境パラメータ（リンゴの豊富さ、タグの継続時間、捕捉半径、チーム報酬）を操作して協力への影響を観察する。
他方のエージェントを環境の一部として扱い、相手エージェントの学習を前提としたモデリングを避ける。

実験結果

リサーチクエスチョン

RQ1環境要因はSSDにおける協調ポリシーと背信ポリシーの出現にどのように影響するか？
RQ2独立した深層RLを通じて学習した場合、SSDsはMGSDsと比べて質的に異なるダイナミクスや均衡を生み出すか？
RQ3資源と相互作用コストが異なると、どのような異質な協調戦略が現れるか？
RQ4エージェントのアーキテクチャと学習パラメータは、背信または協力の傾向にどのように影響するか？

主な発見

環境の希少性と高い対立コストはGatheringにおいてより積極的で背信的なポリシーを促進する。
Wolfpackでは、グループの利益の増大と捕捉半径の拡大が協力的で多エージェントの狩り行動を増加させる。
これらのSSDの経験的利得行列はしばしば囚人のジレンマの利得を反映するが、SSDの視点はGatheringとWolfpackで異なるゲーム構造を明らかにする。
ネットワークサイズの増加はWolfpackで協力を高める一方、Gatheringでは背信を増加させ、認知能力のタスク依存効果を示す。
SSD分析はMGSDモデルでは捕捉されない協調の調整・実装の複雑さを明らかにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。