QUICK REVIEW

[论文解读] See, Hear, and Read: Deep Aligned Representations

Yusuf Aytar, Carl Vondrick|arXiv (Cornell University)|Jun 3, 2017

Multimodal Machine Learning Applications参考文献 41被引用 68

一句话总结

本论文训练一个深度跨模态网络，学习一个在视觉、声音和语言之间共享、对齐的表示，利用大规模同步数据，在训练阶段不需要图片-声音-文本对即可实现跨模态检索与迁移。

ABSTRACT

We capitalize on large amounts of readily-available, synchronous data to learn a deep discriminative representations shared across three major natural modalities: vision, sound and language. By leveraging over a year of sound from video and millions of sentences paired with images, we jointly train a deep convolutional network for aligned representation learning. Our experiments suggest that this representation is useful for several tasks, such as cross-modal retrieval or transferring classifiers between modalities. Moreover, although our network is only trained with image+text and image+sound pairs, it can transfer between text and sound as well, a transfer the network never observed during training. Visualizations of our representation reveal many hidden units which automatically emerge to detect concepts, independent of the modality.

研究动机与目标

利用大规模同步数据来学习在视觉、声音和语言之间共享的表征。
开发一个深度网络，能够为图像、声音和句子产生一个共同的表示。
展示跨模态检索、分类迁移以及新兴的模态无关概念。
证明对齐可以在模态之间迁移（例如文本和声音），即使没有直接的训练对。

提出的方法

提出一个三分支的跨模态卷积网络，具备模态特定的早期层和共享的上层。
使用两种对齐损失：一种模型迁移损失，其中一个学生模态从教师图像模型预测类别概率，且共享上层权重；以及一种在共享空间中强制匹配对尽量接近、未匹配对尽量分离的排序损失。
将输入表示为声谱图（声音）、word2vec 嵌入的句子（文本）和图像，分别通过各自的 CNN 处理并输入到一个 1000 维的 softmax 共享表示中。
用同步的图像+声音和图像+文本对进行训练，利用图像作为桥梁以实现文本-声音对齐；在跨模态检索和分类迁移上进行评估。
可视化隐藏单元以展示新兴的、模态无关的概念探测器。

实验结果

研究问题

RQ1是否可以从大规模同步数据中学习到跨视觉、声音和语言的对齐、判别性表征？
RQ2所学习的表征是否能够实现超越图像-文本的有效跨模态检索，包括图像-声音和声音-文本的迁移？
RQ3在没有目标模态标签的情况下，是否可以使用对齐表示将一个模态中训练的分类器迁移到其他模态？
RQ4内部单元是否会出现，能够检测与模态无关的概念？

主要发现

跨模态检索在视觉-声音-文本任务上显著优于基线，在若干模态对上相对于线性回归和CCA实现了更好的对齐。
通过共享表示的声音-文本检索远超如聚类CCA和线性回归等基线，提升幅度显著。
跨模态设置中的分类器迁移相对于基线在准确率上最高可提升至10%。
该表示使得视觉和文本向声音以及相反方向的迁移成为可能，即使训练时未出现声音-文本对。
共享层中的隐藏单元自动检测高层概念，且常对对象的响应与模态无关。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。