Skip to main content
QUICK REVIEW

[论文解读] Joint-task Self-supervised Learning for Temporal Correspondence

Xueting Li, Sifei Liu|arXiv (Cornell University)|Sep 26, 2019
Video Surveillance and Tracking Methods被引用 53
一句话总结

一个自监督框架在视频帧之间使用共享的帧间亲和矩阵,联合学习区域级定位和像素级密集对应,从而在无注释情况下改善各种视频对应任务。

ABSTRACT

This paper proposes to learn reliable dense correspondence from videos in a self-supervised manner. Our learning process integrates two highly related tasks: tracking large image regions \emph{and} establishing fine-grained pixel-level associations between consecutive video frames. We exploit the synergy between both tasks through a shared inter-frame affinity matrix, which simultaneously models transitions between video frames at both the region- and pixel-levels. While region-level localization helps reduce ambiguities in fine-grained matching by narrowing down search regions; fine-grained matching provides bottom-up features to facilitate region-level localization. Our method outperforms the state-of-the-art self-supervised methods on a variety of visual correspondence tasks, including video-object and part-segmentation propagation, keypoint tracking, and object tracking. Our self-supervised method even surpasses the fully-supervised affinity feature representation obtained from a ResNet-18 pre-trained on the ImageNet.

研究动机与目标

  • 鼓励在没有注释的情况下通过统一区域级和像素级任务来学习视频中的可视对映
  • 开发一个支持定位和细粒度匹配的单一帧间变换(亲和)
  • 将时序一致性、循环一致性和能量保持作为自监督信号
  • 表明联合任务学习在多个视频注释传播基准上获得更好或具竞争力的性能

提出的方法

  • 引入一个联合任务自监督网络,具有共享的帧间亲和矩阵 A,用于建模区域级和像素级变换。
  • 通过一个学习的特征嵌入 f 使用 softmax 归一化的点积相似度来计算 A,以鼓励稀疏性和一对一映射。
  • 使用 A 来变换颜色表示并跨帧追踪像素位置,从而实现区域定位和细粒度匹配。
  • 区域级定位在目标帧中定位自参考帧的一个补丁,并在目标帧内估计其边界框。
  • 细粒度匹配使用 A 的一个子亲和和颜色自编码器来重建目标帧中定位补丁的颜色信息,以实现鲁棒的颜色表示。
  • 应用正交(循环一致性)和浓化正则化,以在帧之间强化一致、局部、单一移动的期望。

实验结果

研究问题

  • RQ1是否可以在自监督方式下,使用单一帧间亲和学习区域级和像素级视觉对应?
  • RQ2共享帧间亲和是否提升区域定位和跨帧密集像素匹配的鲁棒性与准确性?
  • RQ3哪些自监督信号(时序一致性、循环一致性、能量保持)最有助于正则化学习到的变换,以在跨领域泛化?
  • RQ4与自监督和监督基线相比,所提联合任务方法在视频对象分割、关键点跟踪及部分/语义传播方面的表现如何。

主要发现

  • 具有共享亲和矩阵的联合任务框架在多个视频对应任务上优于最先进的自监督方法。
  • 该方法在某些传播基准上甚至能超越在 ImageNet 上预训练的 ResNet-18,尽管没有注释监督。
  • 区域定位和细粒度匹配通过亲和相互促进,提高定位准确性并降低匹配的搜索空间。
  • 正则化——正交(循环一致性)和浓化——在保持局部结构和鲁棒匹配方面有显著贡献。
  • 消融研究表明,联合训练定位和光滑正则化在 DAVIS-2017、VIP、J-HMDB 与 OTB2015 等数据集上取得的指标优于去除这些组件的情况。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。