QUICK REVIEW

[论文解读] Image-Text Multi-Modal Representation Learning by Adversarial Backpropagation

Gwangbeen Park, Woobin Im|arXiv (Cornell University)|Dec 26, 2016

Multimodal Machine Learning Applications参考文献 1被引用 25

一句话总结

本文提出了一种新颖的图像-文本多模态表征学习方法，采用对抗性反向传播，无需图像-文本配对数据，仅依赖类别标签。通过使用梯度反转的领域不变损失训练共享嵌入网络，模型学习到通用的、语义丰富的特征，有效混合图像与文本分布，即使在无配对监督的情况下仍能实现强大的零样本语义检索。

ABSTRACT

We present novel method for image-text multi-modal representation learning. In our knowledge, this work is the first approach of applying adversarial learning concept to multi-modal learning and not exploiting image-text pair information to learn multi-modal feature. We only use category information in contrast with most previous methods using image-text pair information for multi-modal embedding. In this paper, we show that multi-modal feature can be achieved without image-text pair information and our method makes more similar distribution with image and text in multi-modal feature space than other methods which use image-text pair information. And we show our multi-modal feature has universal semantic information, even though it was trained for category prediction. Our model is end-to-end backpropagation, intuitive and easily extended to other multi-modal learning work.

研究动机与目标

解决现有多模态学习方法依赖昂贵且人工精心筛选的图像-文本配对数据进行训练的局限性。
在图像与文本未配对但具有共享类别标签的场景中，实现多模态表征学习。
开发一种方法，学习在图像与文本模态之间具有领域不变性、类别判别性及语义通用性的特征。
证明即使仅以类别预测为目标进行训练，通用语义信息仍可被保留，适用于零样本检索。
提供一种通用的、端到端的、基于反向传播的框架，可轻松扩展至其他模态（如声音-图像、视频-文本）

提出的方法

引入一个多模态嵌入网络，联合使用VGG-16和Word2Vec/TextCNN特征对图像与文本进行编码。
训练一个类别预测头，以确保多模态特征保留在分类任务中的判别能力。
引入一个领域分类器（用于区分图像与文本），通过梯度反转进行对抗性训练，以在共享嵌入空间中强制实现领域不变性。
使用梯度反转层（GRL）反向传播梯度，使嵌入网络学习到在图像与文本领域间无法区分的特征。
使用标准反向传播端到端训练整个模型，损失函数由交叉熵（用于类别预测）和对抗性损失（用于领域不变性）组合而成。
通过在共享多模态嵌入空间中计算k近邻实现零样本检索

实验结果

研究问题

RQ1在不依赖图像-文本配对数据的情况下，能否有效学习多模态表征？
RQ2在嵌入空间中采用对抗性领域自适应，是否相比配对方法能更有效地混合图像与文本模态的分布？
RQ3仅以类别预测为目标进行训练的模型，是否仍能保留对零样本检索有用的通用语义信息？
RQ4所提方法在检索基准上的性能与最先进配对模型相比如何？
RQ5该方法是否可泛化至图像-文本以外的其他多模态学习任务？

主要发现

所提方法在多模态空间中实现了图像与文本特征的均衡分布，t-SNE可视化结果表明聚类分布良好混合。
尽管仅以类别预测为目标进行训练，多模态特征仍保留了通用语义信息，支持准确的零样本句子到图像检索。
在MS COCO 1000测试集上，句子到图像检索的R@1达到10.3%，R@5达到35.5%，优于仅基于类别的基线模型，且无任何配对监督。
多模态特征（图像+文本(m)）的类别分类准确率仅轻微下降（例如，在某些设置中从~40%降至~30%），表明多模态融合过程中的信息损失极小。
即使查询中包含类别标签中不存在的概念（如“woman under trees”不在[person, tie]类别中），模型仍能成功检索到语义相关的图像，证明了其语义泛化能力。
该方法具有鲁棒性与可泛化性：可使用相同的端到端反向传播框架轻松扩展至其他模态（如声音-图像、视频-文本）

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。