[论文解读] Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning
BAD 引入一个公共信念框架(PuB-MDP),在协作部分可观测的多智能体强化学习中实现可扩展的对照因果推理,取得了最先进的 Hanabi 成绩。
When observing the actions of others, humans make inferences about why they acted as they did, and what this implies about the world; humans also use the fact that their actions will be interpreted in this manner, allowing them to act informatively and thereby communicate efficiently with others. Although learning algorithms have recently achieved superhuman performance in a number of two-player, zero-sum games, scalable multi-agent reinforcement learning algorithms that can discover effective strategies and conventions in complex, partially observable settings have proven elusive. We present the Bayesian action decoder (BAD), a new multi-agent learning method that uses an approximate Bayesian update to obtain a public belief that conditions on the actions taken by all agents in the environment. BAD introduces a new Markov decision process, the public belief MDP, in which the action space consists of all deterministic partial policies, and exploits the fact that an agent acting only on this public belief state can still learn to use its private information if the action space is augmented to be over all partial policies mapping private information into environment actions. The Bayesian update is closely related to the theory of mind reasoning that humans carry out when observing others' actions. We first validate BAD on a proof-of-principle two-step matrix game, where it outperforms policy gradient methods; we then evaluate BAD on the challenging, cooperative partial-information card game Hanabi, where, in the two-player setting, it surpasses all previously published learning and hand-coded approaches, establishing a new state of the art.
研究动机与目标
- 激励在协作、部分可观测的多智能体环境中学习有效的沟通和约定。
- 介绍一个可扩展的公共信念框架(PuB-MDP),用于协调具有私有信息的智能体。
- 开发一种方法,利用深度网络在私有观测条件下学习确定性部分策略。
- 在 toy 和 Hanabi 实验中展示相对于基线的改进性能。
提出的方法
- 将公共信念 B_t 定义为 P(f Pri | f pub≤t),并构建 PuB-MDP,状态为 (B_t, f pub),动作空间为确定性部分策略。
- 引入 BAD,一个公共智能体基于 B_t 和 f pub 选择部分策略,而执行智能体利用私有观测来选择环境动作。
- 使用按特征似然和基于采样的更新,应用近似的因式分解贝叶斯更新来维持 B_t。
- 将 BAD 策略参数化为跨私有观测的因式分解结构的部分策略,使得通过深度网络可以实现可扩展学习。
- 共享一个公共随机种子,确保所有智能体抽样相同的 BAD 策略,从而实现作为一个团队的协同探索。
- 可选的自洽信念精炼,以解决特征交互(V0、V1、V2 信念)并提高一致性。
实验结果
研究问题
- RQ1公共信念 MDP(PuB-MDP)是否能够在具有私有观测的协作多智能体强化学习中实现基于沟通的约定的可扩展学习?
- RQ2在如 Hanabi 这样的庞大状态空间中,公开信念的因式分解和近似贝叶斯更新是否带来实际的性能提升?
- RQ3BAD 与两人 Hanabi 中的策略梯度基线和手写编码的智能体相比如何?
- RQ4在 BAD 下,约定(相对于基于证据的信息)对 Hanabi 的性能贡献有多大?
主要发现
| 智能体 | 学习步骤 | 平均值 ± 标准误差 | 完美比例 |
|---|---|---|---|
| SmartBot | - | 23.09 | 29.52% |
| FireFlower | - | 23.37 ± 0.0002 | 52.6% |
| V0-LSTM | 20.2B | 23.622 ± 0.005 | 36.5% |
| V1-LSTM | 21.1B | 23.919 ± 0.004 | 47.5% |
| BAD | 16.3B | 24.174 ± 0.004 | 58.6% |
- BAD 在一个原理证明的两步矩阵游戏中胜过策略梯度基线。
- 在双人 Hanabi 中,BAD 平均得分 24.174 分,超过先前的学习方法约 9 分,接近开手作弊的表现。
- BAD 在评估中达到了高比例的完美局(表1为 58.6%)。
- 通过贝叶斯更新学习的信念将对手牌的不确定性降低约 40%,相较于基于地面推断的基线。
- 在 Hanabi 的游戏中,约 40% 的信息通过约定传达,而不是基于已知事实,见游戏内行为分析。
- BAD 在双人自我对弈的 Hanabi 学习环境中确立了新的最先进水平。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。