QUICK REVIEW

[论文解读] Learning Spatiotemporal Features via Video and Text Pair Discrimination

Tianhao Li, Limin Wang|arXiv (Cornell University)|Jan 16, 2020

Human Pose and Action Recognition参考文献 74被引用 33

一句话总结

该论文提出一个跨模态对配(discrimination)框架 CPD，通过对有噪声的视频-文本对使用噪声对比估计和课程学习来学习视频时空表征，从而在弱监督和迁移任务上实现具有竞争力的性能。

ABSTRACT

Current video representations heavily rely on learning from manually annotated video datasets which are time-consuming and expensive to acquire. We observe videos are naturally accompanied by abundant text information such as YouTube titles and Instagram captions. In this paper, we leverage this visual-textual connection to learn spatiotemporal features in an efficient weakly-supervised manner. We present a general cross-modal pair discrimination (CPD) framework to capture this correlation between a video and its associated text. Specifically, we adopt noise-contrastive estimation to tackle the computational issue imposed by the huge amount of pair instance classes and design a practical curriculum learning strategy. We train our CPD models on both standard video dataset (Kinetics-210k) and uncurated web video dataset (Instagram-300k) to demonstrate its effectiveness. Without further fine-tuning, the learnt models obtain competitive results for action classification on Kinetics under the linear classification protocol. Moreover, our visual model provides an effective initialization to fine-tune on downstream tasks, which yields a remarkable performance gain for action recognition on UCF101 and HMDB51, compared with the existing state-of-the-art self-supervised training methods. In addition, our CPD model yields a new state of the art for zero-shot action recognition on UCF101 by directly utilizing the learnt visual-textual embeddings. The code will be made available at https://github.com/MCG-NJU/CPD-Video.

研究动机与目标

通过利用随视频大量附带的文本来激发学习视频表征，无需人工标注。
提出一个跨模态框架，在共享嵌入空间中对齐视频和文本，以监督特征学习。
通过噪声对比估计和课程学习处理来自网络文本的噪声与规模问题。
证明在网络和标准数据集上预训练的 CPD 能在动作识别任务中获得具有竞争力的线性与迁移性能。

提出的方法

将视频和文本嵌入到一个公共的 256 维空间，带有单位范数约束。
使用跨模态对辨识目标函数，在对应的视频-文本对及负样本上最大化 f^t^T f^v，提升跨模态相关性建模。
用条件分布 p(i_t|v) 和 p(i_v|t) 取代联合分布建模，以更好地捕捉视觉-文本关系。
使用带有记忆库的噪声对比估计进行优化，以近似大类别目标，同时采用先固定语言模型再联合微调网络的课程训练策略。
为视频特征使用 3D-CNN 主干（3D ResNet34/50），文本特征使用 Word2Vec 或 DistilBERT，投影到共享嵌入空间。

实验结果

研究问题

RQ1是否可以从嘈杂的网络视频-文本对中有效学习到弱监督的视频表征？
RQ2跨模态对辨识在视频表征学习中是否优于其他跨模态或纯视觉自监督目标？
RQ3课程学习和文本编码器如何影响学习到的时空特征的质量？
RQ4CPD 在较小到中等规模数据集上的预训练在下游动作识别任务的迁移程度如何？
RQ5CPD 方法是否对来自不同数据源的文本信息中的噪声具有鲁棒性（例如 Kinetics 标题 vs. Instagram 字幕）？

主要发现

方法	监督信息	骨干网络	预训练数据集	冻结	UCF101	HMDB51
随机初始化	-	3D ResNet18	-	x	42.4	17.1
Kinetics 预训练（动作标签）	动作标签	3D ResNet50	Kinetics	x	89.3	61.0
有监督的 SOTA (Xie 等，2018)	动作标签	S3D	Kinetics	x	96.8	75.9
Shuffle & Learn (Misra 等，2016)	顺序验证	CaffeNet	UCF101/HMDB51	x	50.2	18.1
OPN (Lee 等，2017)	序列顺序	VGGNet	UCF101/HMDB51	x	59.8	23.8
CMC (Tian 等，2019)	光流	CaffeNet	UCF101	x	55.3	-
O3N (Fernando 等，2017)	异常项	AlexNet	UCF101	x	60.3	32.5
MASN (Wang 等，2019a)	运动	C3D	Kinetics-400	x	61.2	33.4
COP (Xu 等，2019b)	片段顺序	3D ResNet10	UCF101	x	64.9	29.5
DPC (Han 等，2019)	预测	3D ResNet34	Kinetics-400	x	75.7	35.7
CBT (Sun 等，2019a)	音频(文本)/上下文	S3D	Kinetics-600	x	79.5	44.6
AVTS (Korbar 等，2018)	音频	I3D	Kinetics-600	x	83.7	53.0
AVTS (Korbar 等，2018)	音频	MC3	Audioset-1.8M	x	89.0	61.6
XDC (Alwassel 等，2019)	音频	R(2+1)D	Kinetics-400	x	84.2	47.1
XDC (Alwassel 等，2019)	音频	R(2+1)D	IG-65M	x	91.5	63.1
MIL-NCE (Miech 等，2020)	音频(文本)	S3D	HT-100M	✓	82.7	53.1
MIL-NCE (Miech 等，2020)	音频(文本)	S3D	HT-100M	x	91.3	61.0
TWS (Stroud 等，2020)	文本（标题、描述、标签等）	S3D-G	WVT-70M	x	90.3	65.3
CPD (ours)	标题	3D ResNet50	Kinetics-210k	x	90.5	63.6
CPD (ours)	字幕	3D ResNet50	Instagram-300k	✓	83.7	54.7
CPD (ours)	字幕	3D ResNet50	Instagram-300k	x	92.8	63.8

在 Kinetics 上通过线性评估实现具有竞争力的动作分类性能的 CPD 与跨模态对辨识。
在 Kinetics-210k 或 Instagram-300k 上预训练的 CPD 为在 UCF101 和 HMDB51 上微调提供了强大的初始化，优于若干自监督基线。
跨模态对辨识在学习有用的视频表征方面优于排序损失基线和多模态实例辨识。
课程学习（先固定文本模型再联合微调）比直接微调带来改进，显示对文本噪声的更好处理。
在相对较小的数据集（0.3M 视频）上的 CPD 预训练可与使用数量级更多数据的最先进方法竞争，凸显在受限计算环境下的实用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。