Skip to main content
QUICK REVIEW

[论文解读] A multi-agent reinforcement learning model of common-pool resource appropriation

Julien Pérolat, Joel Z. Leibo|arXiv (Cornell University)|Jul 20, 2017
Experimental Behavioral Economics Studies参考文献 30被引用 68
一句话总结

本文在空间动态的共同池资源游戏中使用独立的深度强化学习代理来研究涌现行为,包括排他性、可持续性和不平等,并通过经验博弈理论工具分析这些结果。

ABSTRACT

Humanity faces numerous problems of common-pool resource appropriation. This class of multi-agent social dilemma includes the problems of ensuring sustainable use of fresh water, common fisheries, grazing pastures, and irrigation systems. Abstract models of common-pool resource appropriation based on non-cooperative game theory predict that self-interested agents will generally fail to find socially positive equilibria---a phenomenon called the tragedy of the commons. However, in reality, human societies are sometimes able to discover and implement stable cooperative solutions. Decades of behavioral game theory research have sought to uncover aspects of human behavior that make this possible. Most of that work was based on laboratory experiments where participants only make a single choice: how much to appropriate. Recognizing the importance of spatial and temporal resource dynamics, a recent trend has been toward experiments in more complex real-time video game-like environments. However, standard methods of non-cooperative game theory can no longer be used to generate predictions for this case. Here we show that deep reinforcement learning can be used instead. To that end, we study the emergent behavior of groups of independently learning agents in a partially observed Markov game modeling common-pool resource appropriation. Our experiments highlight the importance of trial-and-error learning in common-pool resource appropriation and shed light on the relationship between exclusion, sustainability, and inequality.

研究动机与目标

  • 将 CPR 问题建模为动态、空间化并随时间演变的环境,以超越静态博弈理论的局限。
  • 研究独立学习代理是否能够自组织地实现对共同资源的可持续性占用。
  • 考察排除机制与领地形成如何影响可持续性与不平等。
  • 提供用于概括社会结果的度量,并将学习动力学与博弈论概念联系起来。

提出的方法

  • 建模一个部分可观察的 N 玩家马尔可夫博弈,其中代理人收割苹果,其再生取决于局部库存。
  • 使用独立的 Deep Q-Network (DQN) 代理,在没有集中协调的情况下通过互动学习策略。
  • 引入四种社会结果度量:Utilitarian (U)、Equality (E)、Sustainability (S) 和 Peace (P),用于概括群体行为。
  • 分析涌现策略并通过 Schelling 图进行经验博弈理论分析,以表征激励。
  • 考察包括时间超时标记机制在内的变体,该机制允许将其他代理从资源中排除。
  • 提供跨训练阶段的学习策略的观测/视频范例。

实验结果

研究问题

  • RQ1独立的深度强化学习代理是否能够在空间动态的环境中自组织地对 CPR 实现可持续占用?
  • RQ2排除机制(标签化)如何影响可持续性、平等性以及总体效率?
  • RQ3在训练期间出现的类似社会心理阶段(天真、悲剧、成熟)以及它们如何与资源库存相关?
  • RQ4如何利用经验博弈理论工具(Schelling diagrams)来表征学习代理之间不断演化的战略激励?

主要发现

  • 单代理学习在孤立情况下也能产生可持续策略。
  • 在多代理设置中,群体收益并不可靠地跟踪个体学习进展;社会度量揭示超越个体奖励的阶段转变。
  • 出现三种训练阶段:天真(库存健康且效率高)、悲剧(快速枯竭)和成熟(通过排除动态维持库存)。
  • 通过时间超时标签实现的排除可以创建维持库存的私有领地,并提高标记者的个人收益,同时增加代理之间的不平等。
  • 领土结构和更容易的排除导致更大的不平等;具有多个入口或没有墙的地图可降低此类不平等。
  • 通过 Schelling 图的经验博弈理论分析表明,战略激励随着时间从统一的外部性转向有条件的外部性,指示着不断演化的战略动态。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。