Skip to main content
QUICK REVIEW

[论文解读] See, Hear, and Read: Deep Aligned Representations

Yusuf Aytar, Carl Vondrick|arXiv (Cornell University)|Jun 3, 2017
Multimodal Machine Learning Applications参考文献 41被引用 68
一句话总结

本论文训练一个深度跨模态网络,学习一个在视觉、声音和语言之间共享、对齐的表示,利用大规模同步数据,在训练阶段不需要图片-声音-文本对即可实现跨模态检索与迁移。

ABSTRACT

We capitalize on large amounts of readily-available, synchronous data to learn a deep discriminative representations shared across three major natural modalities: vision, sound and language. By leveraging over a year of sound from video and millions of sentences paired with images, we jointly train a deep convolutional network for aligned representation learning. Our experiments suggest that this representation is useful for several tasks, such as cross-modal retrieval or transferring classifiers between modalities. Moreover, although our network is only trained with image+text and image+sound pairs, it can transfer between text and sound as well, a transfer the network never observed during training. Visualizations of our representation reveal many hidden units which automatically emerge to detect concepts, independent of the modality.

研究动机与目标

  • 利用大规模同步数据来学习在视觉、声音和语言之间共享的表征。
  • 开发一个深度网络,能够为图像、声音和句子产生一个共同的表示。
  • 展示跨模态检索、分类迁移以及新兴的模态无关概念。
  • 证明对齐可以在模态之间迁移(例如文本和声音),即使没有直接的训练对。

提出的方法

  • 提出一个三分支的跨模态卷积网络,具备模态特定的早期层和共享的上层。
  • 使用两种对齐损失:一种模型迁移损失,其中一个学生模态从教师图像模型预测类别概率,且共享上层权重;以及一种在共享空间中强制匹配对尽量接近、未匹配对尽量分离的排序损失。
  • 将输入表示为声谱图(声音)、word2vec 嵌入的句子(文本)和图像,分别通过各自的 CNN 处理并输入到一个 1000 维的 softmax 共享表示中。
  • 用同步的图像+声音和图像+文本对进行训练,利用图像作为桥梁以实现文本-声音对齐;在跨模态检索和分类迁移上进行评估。
  • 可视化隐藏单元以展示新兴的、模态无关的概念探测器。

实验结果

研究问题

  • RQ1是否可以从大规模同步数据中学习到跨视觉、声音和语言的对齐、判别性表征?
  • RQ2所学习的表征是否能够实现超越图像-文本的有效跨模态检索,包括图像-声音和声音-文本的迁移?
  • RQ3在没有目标模态标签的情况下,是否可以使用对齐表示将一个模态中训练的分类器迁移到其他模态?
  • RQ4内部单元是否会出现,能够检测与模态无关的概念?

主要发现

  • 跨模态检索在视觉-声音-文本任务上显著优于基线,在若干模态对上相对于线性回归和CCA实现了更好的对齐。
  • 通过共享表示的声音-文本检索远超如聚类CCA和线性回归等基线,提升幅度显著。
  • 跨模态设置中的分类器迁移相对于基线在准确率上最高可提升至10%。
  • 该表示使得视觉和文本向声音以及相反方向的迁移成为可能,即使训练时未出现声音-文本对。
  • 共享层中的隐藏单元自动检测高层概念,且常对对象的响应与模态无关。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。