QUICK REVIEW

[论文解读] Probing Text Models for Common Ground with Visual Representations

Gabriel Ilharco, Rowan Zellers|arXiv (Cornell University)|May 1, 2020

Multimodal Machine Learning Applications参考文献 23被引用 12

一句话总结

本文提出了一种轻量级探测模型，可将如 BERT 等语言模型的文本表征映射到视觉模型的视觉表征，表明即使纯粹通过文本训练的模型也包含非平凡的视觉语义结构。该方法可泛化至未见过的物体类别，且表明上下文显著影响性能，尽管人类仍优于所有模型。

ABSTRACT

Vision, as a central component of human perception, plays a fundamental role in shaping natural language. To better understand how text models are connected to our visual perceptions, we propose a method for examining the similarities between neural representations extracted from words in text and objects in images. Our approach uses a lightweight probing model that learns to map language representations of concrete words to the visual domain. We find that representations from models trained on purely textual data, such as BERT, can be nontrivially mapped to those of a vision model. Such mappings generalize to object categories that were never seen by the probe during training, unlike mappings learned from permuted or random representations. Moreover, we find that the context surrounding objects in sentences greatly impacts performance. Finally, we show that humans significantly outperform all examined models, suggesting considerable room for improvement in representation learning and grounding.

研究动机与目标

探究仅通过语言训练的模型（如 BERT）的文本表征是否包含残余的视觉语义结构。
评估这些文本表征通过轻量级探测模型映射到视觉特征的性能。
评估此类映射在未见物体类别上的泛化能力。
考察语言上下文对跨模态对齐质量的影响。
比较模型在将语言定位到视觉概念方面的性能与人类表现。

提出的方法

训练一个轻量级探测模型，将来自文本模型（如 BERT）的上下文词表征映射到预训练视觉模型的视觉特征。
探测模型学习从文本表征到视觉嵌入空间的线性变换，从而实现对未见物体类别的零样本泛化。
在句子中的具体词语上进行探测，视觉特征从包含这些物体的图像中提取。
通过将模型在未见物体类别上进行零样本迁移，评估其将文本表征与对应视觉特征对齐的能力。
将性能与随机或置换表征进行比较，以隔离有意义的跨模态对齐。
系统性地改变目标词的上下文句子，以评估其对探测准确率的影响。

实验结果

研究问题

RQ1纯粹通过文本训练的模型（如 BERT）是否能编码可探测并映射到视觉特征的视觉语义信息？
RQ2从文本到视觉的映射是否能泛化到探测训练期间未见过的物体类别？
RQ3目标词周围的语言上下文如何影响文本到视觉映射的质量？
RQ4所学映射在多大程度上优于随机或置换表征？
RQ5人类在将语言定位到视觉对象方面的表现与模型表现相比如何？

主要发现

BERT 的文本表征可以有意义地映射到视觉特征，表明视觉语义结构被隐式编码在纯粹通过文本训练的模型中。
探测模型可泛化至未见物体类别，表明所学映射具有鲁棒性和可迁移性。
从实际文本表征学习到的映射显著优于从随机或置换表征学习到的映射，证实了非平凡的对齐。
目标词周围的上下文对探测性能具有可测量且显著的影响，表明表征具有上下文敏感性。
人类在将语言定位到视觉对象方面显著优于所有所考察的模型，凸显了当前表征学习中的差距。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。