Skip to main content
QUICK REVIEW

[论文解读] Image-Text Multi-Modal Representation Learning by Adversarial Backpropagation

Gwangbeen Park, Woobin Im|arXiv (Cornell University)|Dec 26, 2016
Multimodal Machine Learning Applications参考文献 1被引用 25
一句话总结

本文提出了一种新颖的图像-文本多模态表征学习方法,采用对抗性反向传播,无需图像-文本配对数据,仅依赖类别标签。通过使用梯度反转的领域不变损失训练共享嵌入网络,模型学习到通用的、语义丰富的特征,有效混合图像与文本分布,即使在无配对监督的情况下仍能实现强大的零样本语义检索。

ABSTRACT

We present novel method for image-text multi-modal representation learning. In our knowledge, this work is the first approach of applying adversarial learning concept to multi-modal learning and not exploiting image-text pair information to learn multi-modal feature. We only use category information in contrast with most previous methods using image-text pair information for multi-modal embedding. In this paper, we show that multi-modal feature can be achieved without image-text pair information and our method makes more similar distribution with image and text in multi-modal feature space than other methods which use image-text pair information. And we show our multi-modal feature has universal semantic information, even though it was trained for category prediction. Our model is end-to-end backpropagation, intuitive and easily extended to other multi-modal learning work.

研究动机与目标

  • 解决现有多模态学习方法依赖昂贵且人工精心筛选的图像-文本配对数据进行训练的局限性。
  • 在图像与文本未配对但具有共享类别标签的场景中,实现多模态表征学习。
  • 开发一种方法,学习在图像与文本模态之间具有领域不变性、类别判别性及语义通用性的特征。
  • 证明即使仅以类别预测为目标进行训练,通用语义信息仍可被保留,适用于零样本检索。
  • 提供一种通用的、端到端的、基于反向传播的框架,可轻松扩展至其他模态(如声音-图像、视频-文本)

提出的方法

  • 引入一个多模态嵌入网络,联合使用VGG-16和Word2Vec/TextCNN特征对图像与文本进行编码。
  • 训练一个类别预测头,以确保多模态特征保留在分类任务中的判别能力。
  • 引入一个领域分类器(用于区分图像与文本),通过梯度反转进行对抗性训练,以在共享嵌入空间中强制实现领域不变性。
  • 使用梯度反转层(GRL)反向传播梯度,使嵌入网络学习到在图像与文本领域间无法区分的特征。
  • 使用标准反向传播端到端训练整个模型,损失函数由交叉熵(用于类别预测)和对抗性损失(用于领域不变性)组合而成。
  • 通过在共享多模态嵌入空间中计算k近邻实现零样本检索

实验结果

研究问题

  • RQ1在不依赖图像-文本配对数据的情况下,能否有效学习多模态表征?
  • RQ2在嵌入空间中采用对抗性领域自适应,是否相比配对方法能更有效地混合图像与文本模态的分布?
  • RQ3仅以类别预测为目标进行训练的模型,是否仍能保留对零样本检索有用的通用语义信息?
  • RQ4所提方法在检索基准上的性能与最先进配对模型相比如何?
  • RQ5该方法是否可泛化至图像-文本以外的其他多模态学习任务?

主要发现

  • 所提方法在多模态空间中实现了图像与文本特征的均衡分布,t-SNE可视化结果表明聚类分布良好混合。
  • 尽管仅以类别预测为目标进行训练,多模态特征仍保留了通用语义信息,支持准确的零样本句子到图像检索。
  • 在MS COCO 1000测试集上,句子到图像检索的R@1达到10.3%,R@5达到35.5%,优于仅基于类别的基线模型,且无任何配对监督。
  • 多模态特征(图像+文本(m))的类别分类准确率仅轻微下降(例如,在某些设置中从~40%降至~30%),表明多模态融合过程中的信息损失极小。
  • 即使查询中包含类别标签中不存在的概念(如“woman under trees”不在[person, tie]类别中),模型仍能成功检索到语义相关的图像,证明了其语义泛化能力。
  • 该方法具有鲁棒性与可泛化性:可使用相同的端到端反向传播框架轻松扩展至其他模态(如声音-图像、视频-文本)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。