Skip to main content
QUICK REVIEW

[论文解读] Maintaining cooperation in complex social dilemmas using deep reinforcement learning

Adam Lerer, Alexander Peysakhovich|arXiv (Cornell University)|Jul 4, 2017
Evolutionary Game Theory and Cooperation参考文献 62被引用 112
一句话总结

论文提出 amTFT,一种用深度强化学习构建的近似Markov互惠策略,以在Markov社会困境中维持合作,即使面对掠夺者或一次性测试。它表明 amTFT 可以通过修改自我对战学习,并在多样环境中稳健地维持合作。

ABSTRACT

Social dilemmas are situations where individuals face a temptation to increase their payoffs at a cost to total welfare. Building artificially intelligent agents that achieve good outcomes in these situations is important because many real world interactions include a tension between selfish interests and the welfare of others. We show how to modify modern reinforcement learning methods to construct agents that act in ways that are simple to understand, nice (begin by cooperating), provokable (try to avoid being exploited), and forgiving (try to return to mutual cooperation). We show both theoretically and experimentally that such agents can maintain cooperation in Markov social dilemmas. Our construction does not require training methods beyond a modification of self-play, thus if an environment is such that good strategies can be constructed in the zero-sum case (eg. Atari) then we can construct agents that solve social dilemmas in this environment.

研究动机与目标

  • 定义并形式化马尔可夫两人博弈中的合作策略并识别何时出现社会困境。
  • 开发一个实用、可扩展的策略(amTFT),在单次测试博弈中维持合作。
  • 证明 amTFT 可以通过修改的自我对弈学习,而无需额外的分析工具。
  • 展示 amTFT 对被利用的鲁棒性以及推动伙伴合作的能力。

提出的方法

  • 将马尔可夫决策过程推广到具有合作与背叛策略的两人马尔可夫博弈。
  • 引入 amTFT,根据每步的借记(由 Q 函数或回放计算)在合作与背叛策略之间切换。
  • 通过自我对弈采用自私与合作奖励计划来训练合作与背叛策略。
  • 使用基于记忆的或摘要统计的方法来检测背叛并管理切换规则。
  • 给出一个形式化定理,指明在无噪声条件下 amTFT 产生合作的条件。

实验结果

研究问题

  • RQ1近似Markov互惠策略能否在单 shot 的 Markov 社会困境中维持合作?
  • RQ2amTFT 是否在 Markov 博弈中实现不被 exploitation 同时激励对方合作的平衡?
  • RQ3是否可以通过修改的自我对弈为深度强化学习环境可靠地学习合作与背叛策略?
  • RQ4amTFT 在对抗背叛者和对抗其他合作或自利策略时表现如何?
  • RQ5amTFT 方案是否可扩展到代理从原始像素输入学习的环境?

主要发现

  • amTFT 与自身合作并在 tested environments 中抵制背叛者的利用。
  • 标准自我对弈趋于收敛到背叛策略,而 amTFT 实现了对利用鲁棒的合作行为。
  • amTFT 能够从伙伴那里激励合作,提升双方的长期收益。
  • 背叛阶段在 amTFT 中是有限的,并会回归合作,提供惩罚与宽恕之间的务实平衡。
  • 基于价值的借记计算(通过 Q 函数)在结果等价的合作策略之间提供稳定性。
  • 在 Coins 与 PPD 的实验(包括像素化 Atari 风格设置)支持 amTFT 相对于 Grim Trigger 在维持合作方面的可取性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。