Skip to main content
QUICK REVIEW

[论文解读] Emergence of Communication in an Interactive World with Consistent Speakers

Ben Bogin, Mor Geva|arXiv (Cornell University)|Sep 3, 2018
Topic Modeling参考文献 33被引用 30
一句话总结

本文提出了一种新颖的训练算法——一致通信优化(CCO),通过在学习到的表征空间中施加结构,使说话者在具有原始像素输入的交互式多任务环境中实现更一致的表征,从而稳定策略梯度训练。CCO显著提升了任务性能和涌现通信的质量,相较于策略梯度方法及基线模型,尤其在复杂、长时程任务中,实现了更高的上下文独立性——这一结果通过一种基于对齐的新度量方法进行衡量。

ABSTRACT

Training agents to communicate with one another given task-based supervision only has attracted considerable attention recently, due to the growing interest in developing models for human-agent interaction. Prior work on the topic focused on simple environments, where training using policy gradient was feasible despite the non-stationarity of the agents during training. In this paper, we present a more challenging environment for testing the emergence of communication from raw pixels, where training using policy gradient fails. We propose a new model and training algorithm, that utilizes the structure of a learned representation space to produce more consistent speakers at the initial phases of training, which stabilizes learning. We empirically show that our algorithm substantially improves performance compared to policy gradient. We also propose a new alignment-based metric for measuring context-independence in emerged communication and find our method increases context-independence compared to policy gradient and other competitive baselines.

研究动机与目标

  • 解决策略梯度方法在复杂、交互式、多任务环境中,面对长时程任务与稀疏奖励时,训练通信智能体所面临的失败问题。
  • 开发一种训练算法,通过促进说话者在相似环境状态下生成一致的语句,从而稳定学习过程。
  • 引入一种新的评估度量方法,用于衡量涌现通信协议中的上下文独立性,反映其组合性特征。
  • 探究多任务训练是否能增强涌现语言的上下文独立性。
  • 证明结构化的表征空间可使交互式、具身环境中的通信协议更具鲁棒性和泛化能力。

提出的方法

  • 提出一种新型训练算法——一致通信优化(CCO),利用学习到的表征空间的结构,促使说话者在相似环境状态下生成一致的语句。
  • 应用对比学习目标,将语句表征与世界状态对齐,促进说话者输出语义的解耦与稳定。
  • 使用GRU或词袋(BOW)编码器表示说话者的语句表征,其中BOW变体表现出更优的性能和上下文独立性。
  • 在包含导航、物体收集与操作任务的多任务2D交互环境中,联合训练说话者与听者智能体,仅在任务完成时给予奖励。
  • 设计一种新颖的基于对齐的度量方法,用于衡量上下文独立性,通过条件概率 $p_{cv}(c|v)$ 和 $p_{vc}(v|c)$ 计算概念与符号之间的相互对齐程度。
  • 使用对比目标最小化相似概念之间的混淆,确保每个符号以高置信度映射到单一概念。

实验结果

研究问题

  • RQ1策略梯度方法能否在具有原始像素输入、长时程任务的复杂交互式多任务环境中成功训练通信智能体?
  • RQ2通过CCO在学习表征空间中施加结构,是否能带来更一致的说话者行为并提升训练稳定性?
  • RQ3CCO生成的涌现通信协议在多大程度上表现出上下文独立性,反映出其组合性特征?
  • RQ4与单任务训练相比,多任务训练如何影响涌现通信的上下文独立性?
  • RQ5所提出的基于对齐的度量方法能否可靠地量化涌现通信协议中的上下文独立性?

主要发现

  • 由于非平稳性、随机性以及稀疏奖励,策略梯度方法在所提出的交互式多任务环境中无法成功训练智能体。
  • 与策略梯度方法相比,CCO显著提升了任务成功率,尤其在使用BOW变体的8C/3N/1M设置中,成功率提升了3.5倍。
  • 在五色三数字任务中,CCO模型的上下文独立性得分为0.74,远高于策略梯度方法(0.03)和Obverter(0.19),表明其通信更具组合性。
  • CCO-BOW变体在上下文独立性方面优于GRU变体,在5C/3N/1M任务中得分为0.62,在8C/1N/1M任务中得分为0.44,表明更简单的编码器可能更有利于保持语义一致性。
  • 在包含三个任务的多任务训练中,上下文独立性未见提升,CCO-BOW在3C/3N/2M任务中得分为0.29,在3C/3N/3M任务中得分为0.25,表明任务多样性本身并不能增强组合性结构。
  • 所提出的基于对齐的度量方法成功捕捉了上下文独立性,完美上下文独立性得分为1.0,而CCO-BOW在真实场景中达到0.74的得分。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。