Skip to main content
QUICK REVIEW

[论文解读] Word2VisualVec: Cross-Media Retrieval by Visual Feature Prediction.

Jianfeng Dong, Xirong Li|arXiv (Cornell University)|Apr 23, 2016
Multimodal Machine Learning Applications参考文献 33被引用 24
一句话总结

本文提出 Word2VisualVec,一种深度神经网络,能够从文本预测深度视觉特征,从而实现在纯视觉空间中的跨媒体检索。通过在大规模点击日志和图像字幕上进行训练,该方法在 Text-to-Image 和 Image-to-Text 检索任务中均达到当前最优性能,且预测的视觉嵌入在纯文本搜索中也表现出色。

ABSTRACT

This paper attacks the challenging problem of cross-media retrieval. That is, given an image find the text best describing its content, or the other way around. Different from existing works, which either rely on a joint space, or a text space, we propose to perform cross-media retrieval in a visual space only. We contribute extit{Word2VisualVec}, a deep neural network architecture that learns to predict a deep visual encoding of textual input. We discuss its architecture for prediction of CaffeNet and GoogleNet features, as well as its loss functions for learning from text/image pairs in large-scale click-through logs and image sentences. Experiments on the Clickture-Lite and Flickr8K corpora demonstrate the robustness for both Text-to-Image and Image-to-Text retrieval, outperforming the state-of-the-art on both accounts. Interestingly, an embedding in predicted visual feature space is also highly effective when searching in text only.

研究动机与目标

  • 解决不依赖联合嵌入空间或纯文本嵌入空间的跨媒体检索挑战。
  • 通过直接从文本输入学习预测深度视觉特征,实现高效检索。
  • 通过仅使用视觉空间表示,证明在 Text-to-Image 和 Image-to-Text 检索任务中的鲁棒性。
  • 探索预测视觉嵌入在纯文本检索场景中的实用性。

提出的方法

  • Word2VisualVec 是一种深度神经网络,将文本输入映射到预测的深度视觉特征,例如来自 CaffeNet 和 GoogleNet 的特征。
  • 该模型使用在大规模文本-图像对上优化的损失函数进行训练,数据来源为点击日志和图像字幕。
  • 通过端到端学习,预测与对应文本描述实际图像特征对齐的视觉特征。
  • 该架构设计为可跨不同 CNN 主干网络泛化,从而在视觉特征提取中具备灵活性。
  • 训练过程结合了对比损失和重建损失,以提升预测视觉特征与真实视觉特征之间的对齐程度。
  • 该方法完全在视觉空间中运行,避免了对联合嵌入空间或文本专用投影的依赖。

实验结果

研究问题

  • RQ1是否可以仅使用视觉空间表示实现有效的跨媒体检索,而无需依赖联合嵌入空间或纯文本嵌入空间?
  • RQ2深度神经网络仅从文本输入中能多好地预测深度视觉特征?
  • RQ3预测的视觉特征空间是否在语义上保持足够对齐,以支持 Text-to-Image 和 Image-to-Text 检索?
  • RQ4预测的视觉嵌入是否可在纯文本检索任务中有意义地使用?
  • RQ5该模型在 Flickr8K 和 Clickture-Lite 等大规模真实世界数据集上的表现如何?

主要发现

  • Word2VisualVec 在 Flickr8K 和 Clickture-Lite 数据集上的 Text-to-Image 和 Image-to-Text 检索任务中均达到当前最优性能。
  • 该模型在检索准确率方面优于现有方法,表现出在不同评估设置下的鲁棒性。
  • 预测的视觉特征嵌入不仅在跨媒体检索中有效,也适用于纯文本搜索,表明其具备强大的语义对齐能力。
  • 利用点击日志和图像字幕作为训练信号,使模型能够泛化到真实世界的检索场景。
  • 该模型在预测 CaffeNet 和 GoogleNet 特征时保持强劲性能,展现出架构灵活性。
  • 专为对齐与重建设计的损失函数显著提升了预测视觉特征的质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。