QUICK REVIEW

[论文解读] Space-Time Crop & Attend: Improving Cross-Modal Video Representation Learning

Mandela Patrick, Yuki M. Asano|arXiv (Cornell University)|Mar 18, 2021

Multimodal Machine Learning Applications参考文献 132被引用 3

一句话总结

本文提出了一种新型自监督视频表征学习方法——时空裁剪与注意力机制（STiCA），通过在特征空间中应用空间裁剪以实现高效数据增强，并采用轻量级Transformer进行时序建模，显著提升了性能。STiCA在Kinetics-400上预训练后，在HMDB-51上达到67.0%的准确率，在UCF-101上达到93.1%的准确率，达到当前最先进水平。

ABSTRACT

The quality of the image representations obtained from self-supervised learning depends strongly on the type of data augmentations used in the learning formulation. Recent papers have ported these methods from still images to videos and found that leveraging both audio and video signals yields strong gains; however, they did not find that spatial augmentations such as cropping, which are very important for still images, work as well for videos. In this paper, we improve these formulations in two ways unique to the spatio-temporal aspect of videos. First, for space, we show that spatial augmentations such as cropping do work well for videos too, but that previous implementations, due to the high processing and memory cost, could not do this at a scale sufficient for it to work well. To address this issue, we first introduce Feature Crop, a method to simulate such augmentations much more efficiently directly in feature space. Second, we show that as opposed to naive average pooling, the use of transformer-based attention improves performance significantly, and is well suited for processing feature crops. Combining both of our discoveries into a new method, Space-Time Crop & Attend (STiCA) we achieve state-of-the-art performance across multiple video-representation learning benchmarks. In particular, we achieve new state-of-the-art accuracies of 67.0% on HMDB-51 and 93.1% on UCF-101 when pre-training on Kinetics-400.

研究动机与目标

为解决自监督视频表征学习中有效空间不变性学习的缺失问题，该问题在图像对比学习中至关重要，但在视频中因计算成本过高而被低估。
克服视频模型中简单全局平均池化方法的局限性，后者会丢失时序顺序信息，阻碍长程时序依赖关系的建模。
通过结合特征空间中的空间增强与基于注意力的时序建模，提升跨模态视频表征学习，增强表征的不变性与序列理解能力。
仅使用Kinetics-400预训练即实现视频表征学习的SOTA性能，缩小与监督方法的差距，无需依赖AudioSet等更大规模数据集。

提出的方法

提出特征裁剪（Feature Crop）方法，用于在特征空间中模拟空间裁剪，无论裁剪数量多少，仅需骨干网络两次前向传播，显著降低计算成本。
通过多组特征裁剪实施对比学习，强制实现空间不变性，实现强数据增强，同时不增加GPU显存占用或训练时间。
使用浅层Transformer池化层替代全局平均池化，使模型能够学习保留时序顺序的上下文表征。
结合跨模态对比学习（音视频）与模态内对比学习，利用特征裁剪实现多监督信号，提升表征质量。
采用双流架构，视频与音频流共享主干网络，随后通过时序注意力池化与对比损失对齐跨模态表征。
采用噪声对比实例判别目标进行训练，其中正样本对为同一视频的不同增强视图，负样本对来自不同视频。

实验结果

研究问题

RQ1尽管在输入空间中存在高计算成本，空间数据增强（如裁剪）是否可有效应用于视频表征学习？
RQ2将全局平均池化替换为基于Transformer的注意力机制，是否能改善自监督视频学习中的时序建模？
RQ3将特征空间裁剪与基于注意力的时序池化相结合，是否能优于标准对比学习在视频表征学习中的表现？
RQ4当在标准数据集（如Kinetics-400）上预训练且无额外数据时，所提方法与SOTA方法相比表现如何？
RQ5自监督视频模型在仅使用Kinetics-400预训练的情况下，能在多大程度上实现接近监督方法的性能？

主要发现

STiCA在Kinetics-400上预训练后，在HMDB-51上达到67.0%的新SOTA准确率，在UCF-101上达到93.1%的SOTA准确率，优于先前SOTA方法（如GDT和CVLR）。
与采用相似对比学习设置的GDT基线相比，STiCA在HMDB-51上提升7.0个百分点，在UCF-101上提升3.8个百分点。
仅使用特征空间裁剪，性能即比跨模态基线提升1.7%，证明其在学习空间不变性方面的有效性。
将全局平均池化替换为基于Transformer的池化机制，在所有帧长下性能提升超过4%，且在使用平均池化时，极长序列的性能显著下降。
特征空间裁剪与自注意力机制的结合取得最佳结果，消融实验证明两者均不可或缺且具有互补性。
STiCA优于在更大规模数据集（如AudioSet，其规模为Kinetics-400的10倍）上预训练的模型，证明其数据效率高且具有强归纳偏置。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。