QUICK REVIEW

[论文解读] A Joint Model of Language and Perception for Grounded Attribute Learning

Cynthia Matuszek, Nicholas FitzGerald|arXiv (Cornell University)|Jun 27, 2012

Multimodal Machine Learning Applications参考文献 27被引用 181

一句话总结

本文提出一种联合学习模型，整合语言理解与视觉感知，以在物理场景中定位自然语言属性。通过一种在线的、类似EM的算法，该模型同时学习物体属性的视觉分类器和基于概率范畴语法的组合意义表示，无需逻辑形式或分类器输出的显式标注，即可在接地属性归纳任务中实现高准确率。

ABSTRACT

As robots become more ubiquitous and capable, it becomes ever more important to enable untrained users to easily interact with them. Recently, this has led to study of the language grounding problem, where the goal is to extract representations of the meanings of natural language tied to perception and actuation in the physical world. In this paper, we present an approach for joint learning of language and perception models for grounded attribute induction. Our perception model includes attribute classifiers, for example to detect object color and shape, and the language model is based on a probabilistic categorial grammar that enables the construction of rich, compositional meaning representations. The approach is evaluated on the task of interpreting sentences that describe sets of objects in a physical workspace. We demonstrate accurate task performance and effective latent-variable concept induction in physical grounded scenes.

研究动机与目标

使未经训练的用户能够通过自然语言和指向操作来教授机器人物体属性。
在无标注逻辑形式的情况下，联合学习物理属性的视觉分类器和组合语义表示。
从原始语言、图像和目标物体集合中归纳出新的接地概念（即词语与视觉分类器的配对）。
在物理环境中支持在线、增量学习，且监督程度最低。
通过联合语言-感知训练，展示对新属性的有效零样本和少样本学习能力。

提出的方法

采用基于概率范畴语法的语义解析器，从句子生成组合意义表示。
利用Kinect获取的颜色和形状特征，通过逻辑回归分类器检测物体属性。
在意义表示中的逻辑常量与视觉分类器之间引入显式对齐。
定义一种执行模型，利用分类器置信度和真实物体集合，计算满足逻辑表达式的物体集合。
应用一种在线的、类似EM的学习算法，以最大化潜在语言和视觉组件的期望边缘似然。
通过基于解析器中特征权重的关联，将新词与新创建的视觉分类器配对，从而学习新的词素-分类器对。

实验结果

研究问题

RQ1联合模型能否在无标注意义表示的情况下，将新自然语言词汇与对应视觉属性关联起来？
RQ2语言与感知的联合学习在从非结构化语言和感知数据中归纳新接地概念方面有多有效？
RQ3该系统在初始训练中未见过的未知属性上，其泛化能力如何？
RQ4与孤立的语言模型或感知模型相比，联合模型在接地属性选择任务中的性能如何？
RQ5初始化一个功能正常的联合语言-感知系统所需的最少监督数据量是多少？

主要发现

联合模型在物体集合选择任务上的F1得分达到0.76，显著优于仅语言基线（F1=0.14）和仅视觉基线（F1=0.55）。
训练后，新学习概念的颜色和形状分类器平均准确率分别达到97%和74%，实现了可靠的属性检测。
系统成功地将新词（如同义词）与现有或新视觉分类器配对，展示了稳健的概念归纳能力。
当训练句子少于150个时，模型性能急剧下降，表明联合学习在低于该数据阈值时无法泛化。
解析器中的特征权重清晰地将新词与适当分类器关联（如“red”与新颜色分类器关联），而无关词汇如“thing”则被映射到空标记。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。