[论文解读] Emergent Communication through Negotiation
代理通过两种通信渠道学习谈判;自利代理在基于任务的提案下取得成功,但在廉价话语时则失败,而利他代理则利用廉价话语实现最优的联合分配,社区中的代理可辨识性有助于谈判。
Multi-agent reinforcement learning offers a way to study how communication could emerge in communities of agents needing to solve specific problems. In this paper, we study the emergence of communication in the negotiation environment, a semi-cooperative model of agent interaction. We introduce two communication protocols -- one grounded in the semantics of the game, and one which is extit{a priori} ungrounded and is a form of cheap talk. We show that self-interested agents can use the pre-grounded communication channel to negotiate fairly, but are unable to effectively use the ungrounded channel. However, prosocial agents do learn to use cheap talk to find an optimal negotiating strategy, suggesting that cooperation is necessary for language to emerge. We also study communication behaviour in a setting where one agent interacts with agents in a community with different levels of prosociality and show how agent identifiability can aid negotiation.
研究动机与目标
- 研究在多智能体谈判环境中通信如何出现的动机。
- 研究基于任务的有 grounding 的通信与非 grounding 的廉价话语通信的作用。
- 考察自利代理和利他代理是否以不同的通信方式来最大化奖励。
- 探讨代理可辨识性和社区组成如何影响谈判动态与语言的出现。
提出的方法
- 建模一个半合作的谈判博弈,其中两个代理在隐藏效用的物品池中进行分配。
- 实现两种通信通道:一个任务基于的提案通道和一个不受约束的语言性廉价话语通道。
- 引入自利与利他奖励方案以研究不同的激励结构。
- 使用基于LSTM的架构来处理物品上下文、先前的消息和提案,并结合策略梯度(REINFORCE)学习。
- 在多重实验中进行评估:有/无通信的自利谈判、通过廉价话语实现的利他协同,以及具有代理社区的社会尺度交互。
实验结果
研究问题
- RQ1自利代理是否能使用基于任务的提案通道学会公平谈判?
- RQ2廉价话语是否能实现有效谈判,在何种条件下会失败或成功?
- RQ3利他代理是否利用语言通道实现近似最优的联合分配?
- RQ4代理的可辨识性与与不同代理组成的社区交互如何影响谈判结果及语言的出现?
主要发现
- 自利代理在使用基于任务的提案通道时学习将物品公平分配,达到总效用的近似等份。
- 仅用语言通道时,自利代理无法建立有意义的沟通,往往在没有有效谈判的情况下振荡。
- 利他代理利用廉价话语实现近乎最优的联合分配,并在语言学协同方面表现出鲁棒性,但自利代理仅凭廉价话语则无法实现。
- 廉价话语显著改善利他代理间的协同,并降低联合最优性的方差。
- 在社会中,代理的可辨识性帮助自利代理利用或适应他人,而当ID未被披露时,语言可以在利他代理社区中出现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。