QUICK REVIEW

[论文解读] Word2VisualVec: Image and Video to Sentence Matching by Visual Feature Prediction

Jianfeng Dong, Xirong Li|arXiv (Cornell University)|Apr 23, 2016

Multimodal Machine Learning Applications参考文献 61被引用 45

一句话总结

该论文提出 Word2VisualVec，一种深度神经网络，通过直接从文本描述预测深层视觉特征，绕过联合嵌入空间，实现图像和视频与句子的匹配。该方法在四个基准测试中达到最先进性能，通过 word2vec 进行句子向量化，并利用多层感知机将文本映射到视觉特征空间，包括 3D-CNN 和音视频特征用于视频。

ABSTRACT

This paper strives to find the sentence best describing the content of an image or video. Different from existing works, which rely on a joint subspace for image / video to sentence matching, we propose to do so in a visual space only. We contribute Word2VisualVec, a deep neural network architecture that learns to predict a deep visual encoding of textual input based on sentence vectorization and a multi-layer perceptron. We thoroughly analyze its architectural design, by varying the sentence vectorization strategy, network depth and the deep feature to predict for image to sentence matching. We also generalize Word2VisualVec for matching a video to a sentence, by extending the predictive abilities to 3-D ConvNet features as well as a visual-audio representation. Experiments on four challenging image and video benchmarks detail Word2VisualVec's properties, capabilities for image and video to sentence matching, and on all datasets its state-of-the-art results.

研究动机与目标

通过消除对联合子空间学习的依赖，解决图像和视频到句子的匹配问题。
探索将深层视觉特征空间作为跨模态匹配唯一共享空间的可行性。
开发一种能够从自然语言描述中预测多样化视觉特征（如 ResNet、GoogLeNet 或 3D-CNN 的特征）的模型。
通过引入音视频表示（包括梅尔频率倒谱系数 MFCC）将方法扩展到视频。
证明仅使用视觉空间即可在匹配准确率上超越现有联合子空间方法。

提出的方法

Word2VisualVec 使用 word2vec 嵌入作为输入来表示句子，从而实现对大规模词汇表的可扩展处理。
一个多层感知机（MLP）将句子向量映射到深层视觉特征空间，预测来自预训练 CNN（如 GoogLeNet、ResNet）的特征。
该模型通过最小化预测视觉特征与真实视觉特征之间的 L2 距离进行训练，实现端到端学习。
对于视频，该方法可推广至预测 3D-CNN 特征（如来自 C3D 或 I3D）和视觉-音频特征（如 MFCCs）来自文本。
该架构具有灵活性，可适应训练期间使用的任何深层视觉特征表示。
模型超参数在验证集上进行调优，最终模型在盲测集（如 TrecVid 2016）上进行评估。

实验结果

研究问题

RQ1是否可以在不依赖联合子空间的情况下，在视觉特征空间中有效执行图像和视频到句子的匹配？
RQ2句子向量化策略的选择（如 word2vec 与词袋模型）对匹配性能有何影响？
RQ3网络深度以及目标视觉特征（如 fc7 与 conv5）对预测准确率和匹配性能有何影响？
RQ4该模型能否通过从文本描述中预测 3D-CNN 和视觉-音频特征，实现对视频的泛化？
RQ5与联合嵌入模型相比，从文本预测视觉特征是否能取得最先进结果？

主要发现

在 Flickr8k 上，Word2VisualVec 实现了 33.6% 的 R@1 和 75.3% 的 R@10，优于先前最先进方法，包括使用区域级标注的方法。
在 Flickr30k 上，其 R@1 达到 39.7%，R@10 达到 76.7%，超越了 Klein 等人 [16] 和 Plummer 等人 [26] 的模型，即使没有区域级监督。
在 NIST TrecVid 2016 视频到文本基准测试中，Word2VisualVec 在 set B 上实现平均倒排排名（Mean Inverted Rank）0.110，在 set A 上实现 0.097，领先于七支国际团队的全部提交结果。
添加音视频特征预测进一步提升了 TrecVid 基准测试的性能，证明了该模型处理多模态输入的能力。
该模型表明，仅使用视觉空间即可实现高精度匹配，挑战了联合子空间学习的必要性。
消融实验确认，基于 word2vec 的句子编码和更深的 MLP 能够提升特征预测和匹配准确率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。