[论文解读] Modeling Others using Oneself in Multi-Agent Reinforcement Learning
SOM 使代理能够在线建模另一代理隐藏目标,使用自身策略预测对方行动,从而改善在合作与对抗的两人马尔可夫游戏中的策略学习。
We consider the multi-agent reinforcement learning setting with imperfect information in which each agent is trying to maximize its own utility. The reward function depends on the hidden state (or goal) of both agents, so the agents must infer the other players' hidden goals from their observed behavior in order to solve the tasks. We propose a new approach for learning in these domains: Self Other-Modeling (SOM), in which an agent uses its own policy to predict the other agent's actions and update its belief of their hidden state in an online manner. We evaluate this approach on three different tasks and show that the agents are able to learn better policies using their estimate of the other players' hidden states, in both cooperative and adversarial settings.
研究动机与目标
- 激励在信息不完全的多智能体强化学习中对其他代理意图的推理。
- 引入 Self Other-Modeling (SOM) 以在线推断对方隐藏目标。
- 证明使用对方的显式模型能产生更好的策略。
- 展示 SOM 在 Mazebase 环境中对合作与对抗任务的有效性。
提出的方法
- 代理使用神经网络 f,给定自身状态、自身目标以及对方目标的估计,输出策略和值。
- 维护两个共享参数的网络:f_self用于行动,f_other用于推断对方目标,以不同的输入顺序输入。
- 通过使用代理自身策略对离散目标变量 z_other 进行优化来推断对方目标,采用 Gumbel-Softmax 以实现可微分梯度。
- 通过推断过程进行反向传播,以基于 A3C 的学习在各回合中更新 θ_self。
- 在每个游戏步中使用多步推断以细化 z_other 并改进行动选择。
实验结果
研究问题
- RQ1智能体是否能从观察到的行为在线准确推断对方隐藏的目标?
- RQ2与仅环境方法相比,显式建模对方目标是否能改进策略学习?
- RQ3SOM 在合作与对抗的两代理设置中表现如何?
- RQ4推断步数对目标准确性和最终奖励的影响?
- RQ5在不同的 Mazebase 任务(Coin、Recipe、Door)中,SOM 在不同的协作/竞争动态下是否稳健?
主要发现
- SOM 能够在各任务中对对方目标进行在线推断,具有意义的准确性。
- 在若干任务中,SOM 超越了未对对方建模或仅隐式预测对方的基线方法。
- 在 Coin 游戏中,SOM 实现更高的奖励并更好地利用对方目标,相较于不推断目标的基线。
- 在 Recipe 游戏中,SOM 明显优于 NOM、IPP、和 SPP,并在对抗设定中接近 TOG 的上限性能。
- 在 Door 游戏中,SOM 学会推断对方目标以实现合作,尽管收益较为温和,因为需要学习两个角色。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。