QUICK REVIEW

[论文解读] Learning to Share and Hide Intentions using Information Regularization

Daniel Strouse, Max Kleiman‐Weiner|arXiv (Cornell University)|Aug 6, 2018

Reinforcement Learning in Robotics被引用 28

一句话总结

该论文提出了一种基于信息论的正则化方法，使智能体能够在不对其他智能体建模或与其交互的情况下，学习在非对称信息博弈中共享或隐藏意图。通过使用策略梯度方法优化状态给定条件下目标与动作或状态之间的互信息，该方法成功训练智能体实现合作（通过揭示意图）或竞争（通过隐藏意图），并在关键-门游戏和导航游戏中展示了协调性或竞争优势的可测量提升。

ABSTRACT

Learning to cooperate with friends and compete with foes is a key component of multi-agent reinforcement learning. Typically to do so, one requires access to either a model of or interaction with the other agent(s). Here we show how to learn effective strategies for cooperation and competition in an asymmetric information game with no such model or interaction. Our approach is to encourage an agent to reveal or hide their intentions using an information-theoretic regularizer. We consider both the mutual information between goal and action given state, as well as the mutual information between goal and state. We show how to optimize these regularizers in a way that is easy to integrate with policy gradient reinforcement learning. Finally, we demonstrate that cooperative (competitive) policies learned with our approach lead to more (less) reward for a second agent in two simple asymmetric information games.

研究动机与目标

开发一种方法，使智能体能够在无法访问模型或与其他智能体交互的情况下，学习在非对称信息博弈中采取合作或竞争策略。
解决训练智能体行为可解释且与人类预期一致的挑战，特别是在奖励函数不一致时。
使智能体能够以改善联合任务（如协调或竞争）的方式揭示或隐藏意图。
提供一种可扩展的、可微分的框架，兼容深度强化学习和策略梯度方法。

提出的方法

该方法引入了两种基于信息论的正则化项：给定状态下目标与动作之间的互信息（$I_{\text{action}}$），以及目标与状态之间的互信息（$I_{\text{state}}$）。
这些正则化项通过目标条件策略与基础策略之间KL散度的变分近似进行优化，从而实现使用策略梯度的可微训练。
训练目标结合了智能体的奖励与正则化项 $\beta I$，其中 $\beta$ 控制奖励最大化与信息披露/隐藏之间的权衡。
对于连续动作或状态，该方法使用函数逼近，并对KL散度采用解析或随机近似方法，例如对连续动作使用高斯策略。
该方法被集成到标准的策略梯度框架中，实现端到端训练，且无需显式建模其他智能体。
该方法在两个环境中进行了验证：一个空间导航游戏和一个具有非对称目标知识与路径约束的关键-门游戏。

实验结果

研究问题

RQ1智能体能否在不直接交互或不了解其他智能体模型的情况下，通过揭示意图来与同伴协调？
RQ2智能体能否在多智能体环境中通过战略性地隐藏意图来欺骗或超越对手？
RQ3如何利用信息论正则化以可扩展、可微分的方式平衡奖励最大化与意图披露或隐藏？
RQ4控制目标与动作/状态之间信息流对合作与竞争场景下下游性能有何影响？

主要发现

当使用 $\beta = 0.25$（鼓励信息共享）进行训练时，关键-门游戏中Alice的策略始终选择最短路径到达目标，仅拾取目标相关的钥匙，导致Bob在100%的对局中击败或与Alice打成平局。
当使用 $\beta = -0.25$（鼓励信息隐藏）进行训练时，Alice在约50%的初始化中选择通过主钥匙的更长路径，显著降低了Bob的成功率。
在关键-门游戏中，当Alice使用主钥匙时，Bob的胜/平局率下降至不足50%，表明Alice成功延迟揭示其目标以获得竞争优势。
在空间导航游戏中，使用正 $\beta$ 训练的合作策略带来了更高的联合奖励，而使用负 $\beta$ 的竞争策略则降低了第二名智能体的奖励，证实了该方法调节意图披露的能力。
该方法成功使智能体在单独训练期间放弃即时奖励，以在交互环境中获得长期战略优势。
通过函数逼近和变分推断，该方法可推广至连续状态和动作，同时保持可扩展性和可微性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。