QUICK REVIEW

[论文解读] Learning Shared Multimodal Embeddings with Unpaired Data.

AJ Piergiovanni, Michael S. Ryoo|arXiv (Cornell University)|Jun 21, 2018

Human Pose and Action Recognition参考文献 2被引用 5

一句话总结

本文提出一种方法，通过同时利用成对和非成对数据，借助对抗训练学习文本与视频的共享多模态嵌入。该方法显著提升了零样本动作分类、无监督动作发现以及未见动作字幕生成的性能，证明了在最小监督下联合嵌入学习的有效性。

ABSTRACT

In this paper, we propose a method to learn a joint multimodal embedding space. We compare the effect of various constraints using paired text and video data. Additionally, we propose a method to improve the joint embedding space using an adversarial formulation with unpaired text and video data. In addition to testing on publicly available datasets, we introduce a new, large-scale text/video dataset. We experimentally confirm that learning such a shared embedding space benefits three difficult tasks (i) zero-shot activity classification, (ii) unsupervised activity discovery, and (iii) unseen activity captioning.

研究动机与目标

学习一个联合多模态嵌入空间，以对齐不同模态的文本和视频表示。
研究在使用成对文本和视频数据时，不同约束对联合嵌入学习的影响。
通过使用非成对文本和视频数据的对抗形式，提升共享嵌入空间的质量。
在需要零样本泛化的挑战性下游任务上评估所学嵌入。
引入一个新的大规模文本/视频数据集，用于基准测试多模态表征学习。

提出的方法

该方法通过训练深度神经网络将文本和视频输入映射到一个共同的潜在空间，从而学习共享的嵌入空间。
利用成对数据进行对比学习，以促使语义相似的文本-视频对具有接近的嵌入。
引入对抗训练组件，利用非成对的文本和视频数据来优化嵌入空间，提升泛化能力。
对抗形式使用判别器来区分真实与生成的文本-视频对，从而促使生成器产生更对齐的表示。
通过联合使用对比损失和对抗损失，端到端训练模型，以优化对齐性和多样性。
构建了一个新的大规模文本/视频数据集，以支持训练和评估，实现稳健的基准测试。

实验结果

研究问题

RQ1在使用成对文本和视频数据训练时，不同约束如何影响联合多模态嵌入的质量？
RQ2使用非成对数据进行对抗训练能否提升所学多模态嵌入的对齐性和泛化能力？
RQ3共享嵌入空间在无需微调的情况下，能在多大程度上实现零样本动作分类？
RQ4在缺乏标注动作类别的情况下，所学表征在无监督动作发现任务中有多有效？
RQ5模型能否仅通过共享嵌入空间为未见动作生成准确的字幕？

主要发现

所提方法通过利用共享嵌入空间，在零样本动作分类任务上实现了最先进性能。
无监督动作发现任务显著受益于联合嵌入空间的改进对齐。
该模型在未见动作上表现出强大的泛化能力，实现了无需事先接触的准确字幕生成。
通过对抗训练使用非成对数据，使嵌入质量相比仅使用监督的基线方法有可测量的提升。
新构建的大规模数据集支持更稳健的评估，并证实了该方法在多样化视频内容上的可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。