Skip to main content
QUICK REVIEW

[論文レビュー] Consequentialist conditional cooperation in social dilemmas with imperfect information

Alexander Peysakhovich, Adam Lerer|arXiv (Cornell University)|Oct 19, 2017
Evolutionary Game Theory and Cooperation参考文献 42被引用数 21
ひとこと要約

本稿では、直接的な行動観測に依存せず、観測された報酬に基づいて協力を条件づける強化学習ベースの戦略である結果主義的条​​件的協力(CCC)を提案する。この戦略は、情報が不完全な社会的ジレンマにおいても効果的な協力を可能にし、定常的(ergodic)なゲームでは長期的な報酬保証を達成する。確率的で部分観測可能な環境、たとえばフィッシュリーゲームやポンプレーヤー・ジレンマにおいて、前向きな戦略(forward-looking strategies)を上回る性能を示すが、結果がノイズが多い場合には裏切りの検出が遅れる可能性がある。

ABSTRACT

Social dilemmas, where mutual cooperation can lead to high payoffs but participants face incentives to cheat, are ubiquitous in multi-agent interaction. We wish to construct agents that cooperate with pure cooperators, avoid exploitation by pure defectors, and incentivize cooperation from the rest. However, often the actions taken by a partner are (partially) unobserved or the consequences of individual actions are hard to predict. We show that in a large class of games good strategies can be constructed by conditioning one's behavior solely on outcomes (ie. one's past rewards). We call this consequentialist conditional cooperation. We show how to construct such strategies using deep reinforcement learning techniques and demonstrate, both analytically and experimentally, that they are effective in social dilemmas beyond simple matrix games. We also show the limitations of relying purely on consequences and discuss the need for understanding both the consequences of and the intentions behind an action.

研究の動機と目的

  • 相手の行動が部分的にしか観測できない、もしくは結果が不確実な状況におけるマルチエージェント協力戦略の開発。
  • 完全な方策モデリングや行動観測に依存しない、報酬観測のみに依存する強化学習ベースのアプローチの設計。
  • 報酬に基づく条件的協力(CCC)が、複雑な部分観測マルコフゲームにおいて、相互協力の維持、搾取の回避、および高い長期的報酬を確保できることの実証。
  • amTFTなどの前向きな戦略(forward-looking strategies)とCCCを比較し、不確実性下での検出可能性、計算コスト、耐障害性のトレードオフを明らかにすること。
  • 結果のみに依存する戦略の限界を検討し、人間-AIインタラクションにおいて、結果信号と意図信号を組み合わせたハイブリッドモデルの提案。

提案手法

  • 本稿では、エージェントが過去の報酬の時間平均に基づいて協力を学習する深層強化学習フレームワークを提案する。協力を決定するためのしきい値ベースのルールを用いる。
  • CCCは、累積的または平均的報酬が動的に学習されたしきい値を上回る場合に協力する戦略として定式化される。このしきい値は、自己対戦(self-play)と価値関数近似を用いて導出される。
  • 本手法は、ゲームの定常的構造に適応するためのしきい値方策の学習を自己対戦によって実施し、長期的な報酬保証を確保する。
  • 本アプローチは、行動が観測不可で報酬が確率的であるフィッシュリーゲームやポンプレーヤー・ジレンマといった部分観測マルコフゲームにCCCを適用する。
  • 本手法は、将来の報酬をモデル化するamTFT(前向きな戦略)と比較し、解析的および実験的評価を実施する。
  • 本手法は、確率的結果分布を含むさまざまな報酬構造を評価し、裏切りの検出可能性と耐性をテストする。

実験結果

リサーチクエスチョン

  • RQ1報酬の観測のみに依存する意思決定が、情報が不完全な社会的ジレンマにおいても協力を効果的に維持できるか。
  • RQ2部分観測ゲームにおいて、意図に基づく前向きな戦略(amTFTなど)と比較して、結果主義的条​​件的協力(CCC)はどのような性能を示すか。
  • RQ3報酬が確率的または遅延がある場合、CCCの裏切り検出における有限時間的限界は何か。
  • RQ4どのような種類のゲームにおいて、CCCは行動観測ができない状況下でも長期的報酬保証を達成できるか。
  • RQ5不確実性下での安定した協力の支援において、結果に基づく信号と意図に基づく信号は、それぞれどのような能力を示すか。

主な発見

  • CCCは、時間平均報酬に基づいて協力を条件づけることで、行動観測がなくても定常的(ergodic)なゲームにおいて長期的報酬保証を達成する。
  • フィッシュリーゲームでは、CCCエージェントは協力的相手と協力し、搾取を回避し、自ら同士の対戦では高い報酬を達成した。
  • 確率的ペナルティ(p = 0.1)を伴うポンプレーヤー・ジレンマでは、中程度の長さのゲーム(1000ステップ)においてCCCエージェントが搾取された。これは、ノイズの高い環境下で裏切りの検出が遅いことを示している。
  • 検出が遅いものの、CCCはamTFTに比べてシンプルさとPOMDPへの適用可能性に優れ、特に完全な方策モデリングが非現実的である状況で顕著な利点を示した。
  • 実験結果から、CCCは多くの状況で耐障害的かつ効率的であるが、期待報酬が同一でも結果の分散が大きい場合には失敗することが判明。これは、ハイブリッドモデルの必要性を示唆している。
  • コインズ(Coins)とPPD(Pong Player’s Dilemma)における実験結果は、CCCの性能がフィッシュリーゲームと類似しており、対称的かつ部分観測可能な社会的ジレンマに一般化可能であることを裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。