[论文解读] Grounded Language Learning Fast and Slow
本文提出一种具有双编码外部记忆的强化学习智能体,通过将新词(例如'dax')与视觉和语言输入关联,在3D模拟环境中实现了一次性词汇学习。在单次暴露后,该智能体能将绑定关系泛化到同一ShapeNet类别中的新实例,并利用双编码机制驱动对未知物体命名的内在动机。
Recent work has shown that large text-based neural language models acquire a surprising propensity for one-shot learning. Here, we show that an agent situated in a simulated 3D world, and endowed with a novel dual-coding external memory, can exhibit similar one-shot word learning when trained with conventional RL algorithms. After a single introduction to a novel object via visual perception and language (This is a dax), the agent can manipulate the object as instructed (Put the dax on the bed), combining short-term, within-episode knowledge of the nonsense word with long-term lexical and motor knowledge. We find that, under certain training conditions and with a particular memory writing mechanism, the agent's one-shot word-object binding generalizes to novel exemplars within the same ShapeNet category, and is effective in settings with unfamiliar numbers of objects. We further show how dual-coding memory can be exploited as a signal for intrinsic motivation, stimulating the agent to seek names for objects that may be useful later. Together, the results demonstrate that deep neural networks can exploit meta-learning, episodic memory and an explicitly multi-modal environment to account for 'fast-mapping', a fundamental pillar of human cognitive development and a potentially transformative capacity for artificial agents.
研究动机与目标
- 探究人工智能体是否能通过结构化记忆和多模态感知,实现类似于人类快速映射的一次性词汇学习。
- 考察双编码记忆如何同时支持短期情景级知识和长期词汇-动作关联。
- 探究双编码记忆是否可作为零样本物体命名中内在动机的信号。
- 评估词-物绑定在相同ShapeNet类别内新实例上的泛化能力,以及在不同物体数量条件下的表现。
提出的方法
- 智能体采用双编码外部记忆系统,分别存储物体-语言对的事件性(短期)和语义性(长期)表征。
- 训练采用常规深度强化学习,奖励信号由语言引导的导航与操作任务的成功执行所塑造。
- 记忆写入机制在首次接触词-物对时,动态地将新词编码至事件性和语义性记忆中。
- 智能体利用3D模拟环境中的视觉特征和语言嵌入,建立跨模态关联。
- 内在动机由环境中未标记物体的存在所驱动,促使智能体主动为它们寻找名称以提升未来任务表现。
- 泛化能力通过在相同ShapeNet类别中未见过的实例以及不同物体数量条件下测试词-物绑定来评估。
实验结果
研究问题
- RQ1智能体是否能在3D模拟环境中,仅通过一次暴露就学会新词与物体的关联?
- RQ2双编码记忆是否能同时支持即时任务执行和长期的词-物绑定保持?
- RQ3智能体能否将一次性学习的词-物绑定泛化到同一ShapeNet类别内的新实例?
- RQ4在物体数量与训练场景不一致的条件下,智能体的泛化能力是否依然稳健?
- RQ5双编码记忆是否可作为内在动机信号,促使智能体探索并为未知物体命名?
主要发现
- 智能体在仅接触一次新词和物体后,即可成功执行语言引导的操作任务(例如,'把dax放到床上')。
- 双编码记忆使智能体能够结合短期事件性知识与长期词汇性及动作性知识,实现有效任务执行。
- 在特定训练条件和正确记忆写入机制下,词-物绑定可泛化至同一ShapeNet类别内的新实例。
- 即使场景中的物体数量与训练场景不同,智能体仍能有效泛化词-物绑定。
- 双编码机制可作为有效的内在动机信号,促使智能体主动为未标记物体寻找名称,以提升未来任务表现。
- 结果表明,深度神经网络可通过元学习、情景记忆和多模态环境交互实现快速映射。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。