[论文解读] Self-supervised Learning for Video Correspondence Flow
本文通过自监督的帧重建,采用信息瓶颈、受限注意力、计划采样和循环一致性,训练用于像素级对应流的RGB视频嵌入,在不进行微调的情况下,在DAVIS-2017和JHMDB上实现了最先进的性能。
The objective of this paper is self-supervised learning of feature embeddings that are suitable for matching correspondences along the videos, which we term correspondence flow. By leveraging the natural spatial-temporal coherence in videos, we propose to train a ``pointer'' that reconstructs a target frame by copying pixels from a reference frame. We make the following contributions: First, we introduce a simple information bottleneck that forces the model to learn robust features for correspondence matching, and prevent it from learning trivial solutions, \eg matching based on low-level colour information. Second, to tackle the challenges from tracker drifting, due to complex object deformations, illumination changes and occlusions, we propose to train a recursive model over long temporal windows with scheduled sampling and cycle consistency. Third, we achieve state-of-the-art performance on DAVIS 2017 video segmentation and JHMDB keypoint tracking tasks, outperforming all previous self-supervised learning approaches by a significant margin. Fourth, in order to shed light on the potential of self-supervised learning on the task of video correspondence flow, we probe the upper bound by training on additional data, \ie more diverse videos, further demonstrating significant improvements on video segmentation.
研究动机与目标
- 激励在无需人工标注的情况下学习视频中的鲁棒像素级对应关系。
- 利用视频中的时空一致性,通过帧重构来训练嵌入。
- 通过架构设计与训练策略防止简单解和跟踪漂移。
- 在下游任务如视频分割和关键点跟踪上展示出强劲表现。
- 通过在更多样化、无标注视频数据上训练来探索性能上限。
提出的方法
- 使用基于ResNet-18的编码器,利用信息瓶颈产生扰动RGB通道和强度的嵌入。
- 实现受限注意力,在局部搜索窗口内计算密集的对应关系(视差M)。
- 使用计划采样对短序列进行递归、长距离建模,以弥合训练与测试之间的差距。
- 将前向-后向循环一致性作为正则化,防止传播中的漂移。
- 将帧重构视为颜色量化分类任务,使用16个颜色类别(Lab空间中的K-means)和交叉熵损失。
- 完全在Kinetics上进行自监督训练,以6fps解码,输入为RGB,可选颜色 dropout 以增强鲁棒性。
实验结果
研究问题
- RQ1自监督学习是否能够在无标注数据的情况下产生适用于密集视频对应流的嵌入?
- RQ2使用信息瓶颈的帧重构是否能防止依赖低级颜色线索并减少平凡解?
- RQ3计划采样和循环一致性是否能减轻长序列中的跟踪漂移?
- RQ4受限注意力如何影响在更高分辨率输入上的性能与可扩展性?
- RQ5在更多样的无标注视频上训练时,性能的上限是多少?
主要发现
| Method | Supervised | Dataset | J&F (Mean) | J (Mean) | J (Recall) | F (Mean) | F (Recall) |
|---|---|---|---|---|---|---|---|
| Ours (Full Model ResNet-18) | ✗ | Kinetics | 49.5 | 47.7 | 53.2 | 51.3 | 56.5 |
| Ours (Full Model ResNet-18) | ✗ | OxUvA | 50.3 | 48.4 | 53.2 | 52.2 | 56.0 |
| ImageNet (ResNet-50) | ✓ | ImageNet | 49.7 | 50.3 | - | 49.0 | - |
| SiamMask | ✓ | YouTube-VOS | 53.1 | 51.1 | 60.5 | 55.0 | 64.3 |
| OSVOS | ✓ | DAVIS | 60.3 | 56.6 | 63.8 | 63.9 | 73.8 |
| CycleTime (ResNet-50) | ✗ | VLOG | 40.7 | 41.9 | 40.9 | 39.4 | 33.6 |
- 在DAVIS-2017视频分割(J&F均值49.5/47.7?见表格)和JHMDB关键点跟踪(PCK指标)方面达到自监督方法的最先进水平。
- 颜色 dropout 和RGB输入对于弥合训练/测试差异、显著提升DAVIS-2017指标至关重要。
- 受限注意力将显存降低约1.4G,即使略有下降,仍与全注意力相比具有竞争力。
- 计划采样显著提高鲁棒性并减少漂移,尤其在光照变化下。
- 前向-后向循环一致性显著改善长序列传播,降低漂移并提升J&F分数。
- 上限实验表明更多无标注视频数据进一步提升性能,接近或超过某些有监督基线在若干类别上的表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。