QUICK REVIEW

[论文解读] Word2VisualVec: Cross-Media Retrieval by Visual Feature Prediction.

Jianfeng Dong, Xirong Li|arXiv (Cornell University)|Apr 23, 2016

Multimodal Machine Learning Applications参考文献 33被引用 24

一句话总结

本文提出 Word2VisualVec，一种深度神经网络，能够从文本预测深度视觉特征，从而实现在纯视觉空间中的跨媒体检索。通过在大规模点击日志和图像字幕上进行训练，该方法在 Text-to-Image 和 Image-to-Text 检索任务中均达到当前最优性能，且预测的视觉嵌入在纯文本搜索中也表现出色。

ABSTRACT

This paper attacks the challenging problem of cross-media retrieval. That is, given an image find the text best describing its content, or the other way around. Different from existing works, which either rely on a joint space, or a text space, we propose to perform cross-media retrieval in a visual space only. We contribute extit{Word2VisualVec}, a deep neural network architecture that learns to predict a deep visual encoding of textual input. We discuss its architecture for prediction of CaffeNet and GoogleNet features, as well as its loss functions for learning from text/image pairs in large-scale click-through logs and image sentences. Experiments on the Clickture-Lite and Flickr8K corpora demonstrate the robustness for both Text-to-Image and Image-to-Text retrieval, outperforming the state-of-the-art on both accounts. Interestingly, an embedding in predicted visual feature space is also highly effective when searching in text only.

研究动机与目标

解决不依赖联合嵌入空间或纯文本嵌入空间的跨媒体检索挑战。
通过直接从文本输入学习预测深度视觉特征，实现高效检索。
通过仅使用视觉空间表示，证明在 Text-to-Image 和 Image-to-Text 检索任务中的鲁棒性。
探索预测视觉嵌入在纯文本检索场景中的实用性。

提出的方法

Word2VisualVec 是一种深度神经网络，将文本输入映射到预测的深度视觉特征，例如来自 CaffeNet 和 GoogleNet 的特征。
该模型使用在大规模文本-图像对上优化的损失函数进行训练，数据来源为点击日志和图像字幕。
通过端到端学习，预测与对应文本描述实际图像特征对齐的视觉特征。
该架构设计为可跨不同 CNN 主干网络泛化，从而在视觉特征提取中具备灵活性。
训练过程结合了对比损失和重建损失，以提升预测视觉特征与真实视觉特征之间的对齐程度。
该方法完全在视觉空间中运行，避免了对联合嵌入空间或文本专用投影的依赖。

实验结果

研究问题

RQ1是否可以仅使用视觉空间表示实现有效的跨媒体检索，而无需依赖联合嵌入空间或纯文本嵌入空间？
RQ2深度神经网络仅从文本输入中能多好地预测深度视觉特征？
RQ3预测的视觉特征空间是否在语义上保持足够对齐，以支持 Text-to-Image 和 Image-to-Text 检索？
RQ4预测的视觉嵌入是否可在纯文本检索任务中有意义地使用？
RQ5该模型在 Flickr8K 和 Clickture-Lite 等大规模真实世界数据集上的表现如何？

主要发现

Word2VisualVec 在 Flickr8K 和 Clickture-Lite 数据集上的 Text-to-Image 和 Image-to-Text 检索任务中均达到当前最优性能。
该模型在检索准确率方面优于现有方法，表现出在不同评估设置下的鲁棒性。
预测的视觉特征嵌入不仅在跨媒体检索中有效，也适用于纯文本搜索，表明其具备强大的语义对齐能力。
利用点击日志和图像字幕作为训练信号，使模型能够泛化到真实世界的检索场景。
该模型在预测 CaffeNet 和 GoogleNet 特征时保持强劲性能，展现出架构灵活性。
专为对齐与重建设计的损失函数显著提升了预测视觉特征的质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。