QUICK REVIEW

[论文解读] Training and Evaluating Multimodal Word Embeddings with Large-scale Web Annotated Images

Junhua Mao, Jiajing Xu|arXiv (Cornell University)|Nov 24, 2016

Multimodal Machine Learning Applications参考文献 33被引用 36

一句话总结

本文介绍了 Pinterest40M，一个包含4000万张图像和3亿条文本描述的大规模多模态数据集，以及一个对应的10,674对经人工验证的词语/短语相似性配对评估集。提出了一种加权共享的RNN模型，融合视觉与文本特征，表明视觉信息显著提升了词嵌入的质量，在Gold RP10K基准测试中相比Word2Vec提升了9.5%。

ABSTRACT

In this paper, we focus on training and evaluating effective word embeddings with both text and visual information. More specifically, we introduce a large-scale dataset with 300 million sentences describing over 40 million images crawled and downloaded from publicly available Pins (i.e. an image with sentence descriptions uploaded by users) on Pinterest. This dataset is more than 200 times larger than MS COCO, the standard large-scale image dataset with sentence descriptions. In addition, we construct an evaluation dataset to directly assess the effectiveness of word embeddings in terms of finding semantically similar or related words and phrases. The word/phrase pairs in this evaluation dataset are collected from the click data with millions of users in an image search system, thus contain rich semantic relationships. Based on these datasets, we propose and compare several Recurrent Neural Networks (RNNs) based multimodal (text and image) models. Experiments show that our model benefits from incorporating the visual information into the word embeddings, and a weight sharing strategy is crucial for learning such multimodal embeddings. The project page is: http://www.stat.ucla.edu/~junhua.mao/multimodal_embedding.html

研究动机与目标

解决缺乏大规模、结合图像与文本描述的多模态数据集的问题，以训练鲁棒的词嵌入。
开发可扩展的评估框架，用于衡量词嵌入在捕捉语义相似性与相关性方面的质量。
提出并评估能够有效整合视觉与文本信号到词表示中的多模态RNN模型。
研究视觉监督策略（尤其是权重共享）对学习有意义且可泛化的词嵌入的影响。
通过一个大规模、基于用户点击行为、经人工验证的评估数据集，实现多模态词嵌入模型的基准测试。

提出的方法

通过爬取Pinterest上公开分享的Pin，构建Pinterest40M数据集，包含4000万张图像和3亿条句子描述。
通过挖掘Pinterest图像搜索系统中的用户点击日志，并利用众包清理噪声配对，生成大规模评估数据集（RP10M 和 Gold RP10K）。
提出一种多模态RNN模型（模型A），在词嵌入层与输出softmax层之间共享权重，从而实现在句子中所有词语上实现软视觉监督。
实现两种替代模型（B和C），分别对RNN最终隐藏状态或词嵌入应用直接视觉监督，以供对比。
使用联合损失函数进行模型训练，最小化图像特征与RNN隐藏状态或词嵌入之间的欧氏距离。
采用t-SNE可视化方法，定性评估学习到的嵌入空间中语义相似词语的聚类情况。

实验结果

研究问题

RQ1在大规模多模态数据集上训练时，视觉信息在提升词嵌入质量方面的有效性如何？
RQ2在多模态RNN中，词嵌入与输出层之间的权重共享策略是否能增强视觉与文本信号的融合？
RQ3多模态RNN模型在语义相似性任务中与纯文本基线模型（如Word2Vec和GloVe）相比的相对性能如何？
RQ4在Pinterest40M上训练的模型与在更大规模纯文本语料上训练的模型相比，在语义相似性与相关性任务上的泛化能力如何？
RQ5基于大规模用户活动数据生成的评估数据集，是否能比小型人工构建的数据集提供更全面、更真实的词嵌入模型基准？

主要发现

视觉信息显著提升了词嵌入质量：模型A在Gold RP10K基准测试中达到0.843，相比纯文本RNN基线模型提升9.5%。
权重共享策略至关重要：若不采用权重共享，模型A在Gold RP10K上的得分为0.773，相比完整模型下降7.0%。
模型A优于当前最先进的纯文本模型：在Gold RP10K上，较Word2Vec-GoogleNews（0.716）高出9.5%，在RP10M上较GloVe-Twitter（0.693）高出15.0%。
尽管仅在30亿词上进行训练，Pinterest40M训练的模型仍超越在3000亿词上训练的Word2Vec，表明多模态监督具有显著价值。
模型B（对RNN最终隐藏状态施加直接视觉监督）表现欠佳，原因在于梯度难以有效传播至早期词嵌入，凸显了网络架构设计的重要性。
t-SNE可视化结果证实，语义相似的词语在嵌入空间中形成聚类，验证了模型学习有意义表示的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。