QUICK REVIEW

[论文解读] Learning Video Representations using Contrastive Bidirectional Transformer

Chen Sun, Fabien Baradel|arXiv (Cornell University)|Jun 13, 2019

Human Pose and Action Recognition参考文献 65被引用 230

一句话总结

本文提出 Contrastive Bidirectional Transformer（CBT），通过自监督学习从真实数值帧特征序列中学习视频表征，可选地进行来自 ASR 文本的跨模态训练，在视频分类、字幕生成（captioning）与分割任务上达到最先进的结果。

ABSTRACT

This paper proposes a self-supervised learning approach for video features that results in significantly improved performance on downstream tasks (such as video classification, captioning and segmentation) compared to existing methods. Our method extends the BERT model for text sequences to the case of sequences of real-valued feature vectors, by replacing the softmax loss with noise contrastive estimation (NCE). We also show how to learn representations from sequences of visual features and sequences of words derived from ASR (automatic speech recognition), and show that such cross-modal training (when possible) helps even more.

研究动机与目标

在下游任务如分类、字幕生成和分割等需要时，激发对无标签情境中鲁棒视频表征的学习动机。
将 BERT 风格的双向上下文建模应用于真实值视频特征序列，使用对比损失。
探索通过联合利用 ASR 派生的标记进行跨模态训练，以最大化视频特征的互信息。
在标准基准（如 UCF101、HMDB51）及更长的时序表示上，展示相对于现有自监督方法的改进。

提出的方法

将 BERT 风格的预训练扩展到真实值视频特征序列，使用噪声对比估计（NCE）目标函数。
用 S3D-CNN 编码短帧窗口以产生帧级特征，然后将双向 Transformer 用作上下文预测器。
使用 NCE 最大化给定上下文时对被遮蔽的帧特征的可预测性，鼓励双向时间表示。
引入一个跨模态 Transformer，以最大化视频特征与可选的 ASR 文本标记之间的互信息，聚合在序列层级而非逐帧对齐。
将三种损失整合为统一目标：L_cbt = w_bert L_bert（预训练、冻结）+ w_visual L_visual + w_cross L_cross；其中在实际操作中 w_bert 固定为 0，w_visual=1，w_cross 根据是否进行跨模态训练取 1 或 0。
在 Kinetics 和 HowTo100M 上进行视觉信息单独的 CBT 预训练评估，随后在下游任务如动作识别、字幕生成与分割上进行线性探测或微调。

实验结果

研究问题

RQ1如何在真实值视频特征序列上通过对比学习训练出一个 BERT 风格的双向 Transformer？
RQ2将来自 ASR 的跨模态信号引入是否能改善学到的视频表征，尤其是在视频与文本对齐不完美的情况下？
RQ3自监督 CBT 预训练对短期动作识别与长期时序表示有哪些影响？
RQ4与先前自监督方法相比，学到的表征在视频分类、分割与字幕生成等下游任务上的迁移效果如何？

主要发现

方法	UCF101 (Fine-tuned)	HMDB51 (Fine-tuned)	UCF101 (Frozen)	HMDB51 (Frozen)
Random	63.3	29.7	25.7	11.5
Shuffle&Learn*	68.7	35.8	26.5	12.6
3DRotNet*	75.3	40.0	47.7	24.8
CBT (ours)	79.5	44.5	54.0	29.5

基于 CBT 的自监督学习在微调后显著提升了 UCF101 和 HMDB51 的动作识别效果（如在相同基线下：UCF101 79.5 对比 75.3，HMDB51 44.5 对比 40.0）。
与 ASR 信号的跨模态预训练在较小数据集的动作预测任务上带来进一步提升，并改善了从 HowTo100M 学到的时序表示。
CBT 通过在真实值帧特征序列上的 Transformer 上下文模型，相较于以往自监督方法，避免了可能丢失细粒度信息的向量量化，表现更优。
通过 CBT 学习的时序表征在更长的序列上具有良好扩展性，相比平均池化和 LSTM，在视频长度增加时表现更优。
对于字幕生成与分割，基于 CBT 的表征在语言与帧标签等指标（如 BLEU-4、METEOR、ROUGE-L、CIDEr）上更高，在 COIN 和 YouCook2 数据集上的帧标注性能也具有竞争力。
与 VideoBERT 及其他方法相比，CBT 不需要离散视觉标记就能取得强结果，得益于对真实值特征的直接建模以及跨模态互信息。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。