Skip to main content
QUICK REVIEW

[论文解读] Parameter Sharing Deep Deterministic Policy Gradient for Cooperative Multi-agent Reinforcement Learning

Xiangxiang Chu, Hangjun Ye|arXiv (Cornell University)|Oct 1, 2017
Reinforcement Learning in Robotics参考文献 7被引用 54
一句话总结

本文提出参数共享的 Deep Deterministic Policy Gradient 变体,以在局部观测下扩展合作多智能体强化学习,提升学习速度和内存效率。

ABSTRACT

Deep reinforcement learning for multi-agent cooperation and competition has been a hot topic recently. This paper focuses on cooperative multi-agent problem based on actor-critic methods under local observations settings. Multi agent deep deterministic policy gradient obtained state of art results for some multi-agent games, whereas, it cannot scale well with growing amount of agents. In order to boost scalability, we propose a parameter sharing deterministic policy gradient method with three variants based on neural networks, including actor-critic sharing, actor sharing and actor sharing with partially shared critic. Benchmarks from rllab show that the proposed method has advantages in learning speed and memory efficiency, well scales with growing amount of agents, and moreover, it can make full use of reward sharing and exchangeability if possible.

研究动机与目标

  • 在局部观测下激励合作多智能体强化学习,并解决随着智能体数量增长的可扩展性问题。
  • 开发参数共享的 DDPG 变体,以提高训练效率和内存使用。
  • 展示共享机制在可能情况下对奖励共享和可交换性(exchangeability)的优势。

提出的方法

  • 提出三种变体:actor-critic 共享、actor 共享,以及部分共享 critic 的 actor 共享。
  • 基于 Deep Deterministic Policy Gradient 框架提出创新。
  • 使用神经网络实现共享策略。
  • 在 rllab 的基准测试上进行评估,以评估学习速度、内存效率和可扩展性。

实验结果

研究问题

  • RQ1参数共享在局部观测下的协作多智能体强化学习中如何影响学习速度?
  • RQ2随着提议的变体中智能体数量增加,内存使用如何扩展?
  • RQ3所提出的共享方案在可行情况下是否能够有效利用奖励共享和可交换性?
  • RQ4哪种变体(actor-critic 共享、actor 共享,还是部分共享 critic)在性能与可扩展性之间提供最佳折衷?

主要发现

  • 参数共享变体在学习速度和内存效率方面显示出优势。
  • 随着智能体数量增加,方法的可扩展性更好。
  • 在可行的情况下,这些方法可以利用奖励共享和可交换性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。