Skip to main content
QUICK REVIEW

[論文レビュー] Learning Conventions in Multiagent Stochastic Domains using Likelihood Estimates

Craig Boutilier|arXiv (Cornell University)|Feb 13, 2013
Game Theory and Applications参考文献 17被引用数 25
ひとこと要約

本稿では、行動が観測不能なマルチエージェント確率的システムに対してベイジアン学習アプローチを提案し、尤度推定を用いて虚偽的プレイを一般化し、従来の均衡に収束させる。最大尤度を用いて非現実的な戦略を排除することで、直接的な行動観測なしに協調を達成し、非対称な行動故障を伴う協調的状況での収束を改善する。

ABSTRACT

Fully cooperative multiagent systems - those in which agents share a joint utility model- is of special interest in AI. A key problem is that of ensuring that the actions of individual agents are coordinated, especially in settings where the agents are autonomous decision makers. We investigate approaches to learning coordinated strategies in stochastic domains where an agent's actions are not directly observable by others. Much recent work in game theory has adopted a Bayesian learning perspective to the more general problem of equilibrium selection, but tends to assume that actions can be observed. We discuss the special problems that arise when actions are not observable, including effects on rates of convergence, and the effect of action failure probabilities and asymmetries. We also use likelihood estimates as a means of generalizing fictitious play learning models in our setting. Finally, we propose the use of maximum likelihood as a means of removing strategies from consideration, with the aim of convergence to a conventional equilibrium, at which point learning and deliberation can cease.

研究の動機と目的

  • エージェントが互いの行動を直接観測できない完全に協調的なマルチエージェントシステムにおける協調を解決すること。
  • 確率的領域で行動が観測可能であると仮定する従来のベイジアン学習モデルの制限を克服すること。
  • 観測不能な行動設定における虚偽的プレイを一般化する尤度ベースの学習メカニズムを開発すること。
  • 最大尤度を用いて反復的に非現実的な戦略を除外し、従来の均衡への収束を加速すること。
  • 行動故障確率と非対称性が、観測不能な設定における学習収束に与える影響を分析すること。

提案手法

  • 本手法は、直接的な行動観測ではなく、観測された結果に基づいて戦略使用確率を推定する尤度推定を用いる。
  • 直接的な行動頻度カウントの代わりに、尤度ベースの信念更新を組み込むことで、虚偽的プレイを拡張する。
  • 観測結果に基づいて統計的に不適切とされる戦略を評価・除外するために、最大尤度推定を用いる。
  • 行動が失敗するか観測不能である可能性がある確率的プロセスとしてエージェント行動をモデル化し、それに応じて信念を調整する。
  • 信念更新メカニズムは、結果の観測と戦略プロファイルの尤度を組み合わせ、時間経過とともにエージェントの期待を精緻化する。
  • 学習プロセスは、従来の均衡に到達するまで継続され、その時点で意思決定が停止する。

実験結果

リサーチクエスチョン

  • RQ1行動が直接観測不能な確率的マルチエージェントシステムにおいて、エージェントはどのように協調戦略を学習できるか?
  • RQ2観測不能な設定において、行動故障確率と非対称性が収束速度に与える影響は何か?
  • RQ3尤度ベースの信念更新は、観測不能ドメインにおいて標準的な虚偽的プレイよりも収束を改善できるか?
  • RQ4最大尤度を用いて非現実的な戦略を除外し、均衡への収束をどれほど加速できるか?
  • RQ5不完全な他者行動情報のもとで、本手法は完全に協調的なシステムにおいてどのように協調を維持できるか?

主な発見

  • 尤度ベースのアプローチは、従来の虚偽的プレイが失敗する観測不能なマルチエージェント確率的ドメインにおいて、効果的な協調を可能にする。
  • 最大尤度による戦略の除外は、候補戦略の数を顕著に削減し、従来の均衡への収束を加速する。
  • 特に非対称な行動故障確率下では、標準的な虚偽的プレイに比べて収束速度が向上することが示された。
  • 行動が観測不能であっても、結果の尤度を活用して戦略使用を推定することで、安定した協調が達成される。
  • 故障確率を尤度推定に組み込むことで、本手法は確率的行動故障を効果的に処理できる。
  • 収束は従来の均衡に達成され、学習と意思決定の終了が効率的に可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。