QUICK REVIEW

[论文解读] Learning to Play Guess Who? and Inventing a Grounded Language as a Consequence

Emilio Jorge, Mikael Kågebäck|arXiv (Cornell University)|Nov 10, 2016

Topic Modeling参考文献 11被引用 37

一句话总结

本文提出一种基于深度循环Q网络（DRQN）的多智能体深度强化学习框架，使两个智能体在玩《猜猜谁？》游戏时，通过讨论图像中的视觉特征，协作学习一种具身的、符号化的语言。智能体发展出一种带有记忆的、可交互的对话系统，能够根据对话历史自适应调整，同时发明出基于视觉属性的离散、上下文敏感的词汇——实验表明，在训练过程中增加噪声可提升学习速度与性能。

ABSTRACT

Acquiring your first language is an incredible feat and not easily duplicated. Learning to communicate using nothing but a few pictureless books, a corpus, would likely be impossible even for humans. Nevertheless, this is the dominating approach in most natural language processing today. As an alternative, we propose the use of situated interactions between agents as a driving force for communication, and the framework of Deep Recurrent Q-Networks for evolving a shared language grounded in the provided environment. We task the agents with interactive image search in the form of the game Guess Who?. The images from the game provide a non trivial environment for the agents to discuss and a natural grounding for the concepts they decide to encode in their communication. Our experiments show that the agents learn not only to encode physical concepts in their words, i.e. grounding, but also that the agents learn to hold a multi-step dialogue remembering the state of the dialogue from step to step.

研究动机与目标

探究智能体是否能通过在视觉环境中进行交互式、具身化的沟通，发明一种共享的、具身的语言。
解决在无预定义协议或共享参数的情况下学习离散、符号化通信的挑战。
实现多步对话，使智能体利用记忆根据对话历史自适应调整信息。
评估通信信道中的噪声对新兴语言习得中学习速度与性能的影响。
将可微分多智能体学习（DIAL）推广至任意维度的正交消息，以实现更丰富、更具可解释性的语言。

提出的方法

智能体使用深度循环Q网络（DRQN）并结合门控循环单元（GRUs）进行训练，以在对话轮次间保持内部状态。
通信被建模为一种可微分的、带噪声的信道，智能体发送任意维度的正交消息，从而支持大规模词汇量的语言涌现。
在训练过程中逐步增加通信信道的噪声，以促进离散、符号化通信的形成，同时保持训练稳定性。
智能体在《猜猜谁？》的改进版本中进行对弈，轮流就图像中的视觉特征提问与回答，以识别目标角色。
图像表征通过端到端方式从原始像素中学习，避免依赖预训练分类器，从而实现真正的端到端训练。
采用t-SNE可视化分析智能体通信的语义结构，通过测量不同图像上问答模式的相似性来评估。

实验结果

研究问题

RQ1智能体能否通过在视觉环境中进行交互式、具身化的沟通，发明一种离散的、符号化的语言？
RQ2通过GRUs引入记忆后，智能体在维持多轮对话及根据上下文调整语义方面的能力有何变化？
RQ3增加通信信道中的噪声是否有助于促进离散、符号化通信的涌现并提升训练效率？
RQ4所发明的语言在多大程度上与图像的视觉特征具身相关？这一关联能否被定量验证？
RQ5DIAL框架能否推广至支持任意维度的正交消息？这种推广是否提升性能与可解释性？

主要发现

智能体成功通过发明一种共享的、具身的语言来学习玩《猜猜谁？》，该语言将词汇映射到如发色、胡须、服装等视觉属性。
智能体发展出上下文敏感的沟通方式：93%的第二轮问题会根据第一轮的回答而改变，表明其能利用记忆实现自适应、交互式对话。
在训练过程中增加噪声可实现更快收敛与更高的最终性能，表明噪声有助于符号抽象的形成。
t-SNE可视化显示，具有相似视觉特征的图像在问答模式上表现出相似性，从而聚类在一起，证实了语言的语义具身性。
将DIAL推广至任意维度的正交消息可提升系统性能，并增强与二值或低维消息空间相比的可解释性。
该模型在不共享智能体参数的情况下实现优异性能，支持更符合生物学原理的去中心化学习架构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。