[论文解读] See, Hear, and Read: Deep Aligned Representations
本论文训练一个深度跨模态网络,学习一个在视觉、声音和语言之间共享、对齐的表示,利用大规模同步数据,在训练阶段不需要图片-声音-文本对即可实现跨模态检索与迁移。
We capitalize on large amounts of readily-available, synchronous data to learn a deep discriminative representations shared across three major natural modalities: vision, sound and language. By leveraging over a year of sound from video and millions of sentences paired with images, we jointly train a deep convolutional network for aligned representation learning. Our experiments suggest that this representation is useful for several tasks, such as cross-modal retrieval or transferring classifiers between modalities. Moreover, although our network is only trained with image+text and image+sound pairs, it can transfer between text and sound as well, a transfer the network never observed during training. Visualizations of our representation reveal many hidden units which automatically emerge to detect concepts, independent of the modality.
研究动机与目标
- 利用大规模同步数据来学习在视觉、声音和语言之间共享的表征。
- 开发一个深度网络,能够为图像、声音和句子产生一个共同的表示。
- 展示跨模态检索、分类迁移以及新兴的模态无关概念。
- 证明对齐可以在模态之间迁移(例如文本和声音),即使没有直接的训练对。
提出的方法
- 提出一个三分支的跨模态卷积网络,具备模态特定的早期层和共享的上层。
- 使用两种对齐损失:一种模型迁移损失,其中一个学生模态从教师图像模型预测类别概率,且共享上层权重;以及一种在共享空间中强制匹配对尽量接近、未匹配对尽量分离的排序损失。
- 将输入表示为声谱图(声音)、word2vec 嵌入的句子(文本)和图像,分别通过各自的 CNN 处理并输入到一个 1000 维的 softmax 共享表示中。
- 用同步的图像+声音和图像+文本对进行训练,利用图像作为桥梁以实现文本-声音对齐;在跨模态检索和分类迁移上进行评估。
- 可视化隐藏单元以展示新兴的、模态无关的概念探测器。
实验结果
研究问题
- RQ1是否可以从大规模同步数据中学习到跨视觉、声音和语言的对齐、判别性表征?
- RQ2所学习的表征是否能够实现超越图像-文本的有效跨模态检索,包括图像-声音和声音-文本的迁移?
- RQ3在没有目标模态标签的情况下,是否可以使用对齐表示将一个模态中训练的分类器迁移到其他模态?
- RQ4内部单元是否会出现,能够检测与模态无关的概念?
主要发现
- 跨模态检索在视觉-声音-文本任务上显著优于基线,在若干模态对上相对于线性回归和CCA实现了更好的对齐。
- 通过共享表示的声音-文本检索远超如聚类CCA和线性回归等基线,提升幅度显著。
- 跨模态设置中的分类器迁移相对于基线在准确率上最高可提升至10%。
- 该表示使得视觉和文本向声音以及相反方向的迁移成为可能,即使训练时未出现声音-文本对。
- 共享层中的隐藏单元自动检测高层概念,且常对对象的响应与模态无关。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。