QUICK REVIEW

[论文解读] Self-Supervised Visual Representation Learning from Hierarchical Grouping

Xiao Zhang, Michael Maire|arXiv (Cornell University)|Dec 5, 2020

Advanced Image and Video Retrieval Techniques参考文献 49被引用 29

一句话总结

该论文提出了一种自监督视觉表征学习框架，该框架从一个小型有监督的轮廓检测器出发，为大规模无标签数据集生成分层区域分组。通过将这些分组用作对比学习的监督信号，该方法从随机初始化训练一个CNN，生成语义像素嵌入，在下游任务（如语义分割、区域搜索和视频实例追踪）中实现了最先进性能，且除初始原始特征所需的500张图像外，无需任何其他标注数据。

ABSTRACT

We create a framework for bootstrapping visual representation learning from a primitive visual grouping capability. We operationalize grouping via a contour detector that partitions an image into regions, followed by merging of those regions into a tree hierarchy. A small supervised dataset suffices for training this grouping primitive. Across a large unlabeled dataset, we apply this learned primitive to automatically predict hierarchical region structure. These predictions serve as guidance for self-supervised contrastive feature learning: we task a deep network with producing per-pixel embeddings whose pairwise distances respect the region hierarchy. Experiments demonstrate that our approach can serve as state-of-the-art generic pre-training, benefiting downstream tasks. We additionally explore applications to semantic region search and video-based object instance tracking.

研究动机与目标

开发一种自监督表征学习框架，利用学习到的视觉原始特征引导大规模无标签数据上的特征学习。
实现在随机初始化下对深度网络进行预训练，避免依赖ImageNet预训练。
仅使用无标签数据，提升语义分割、语义区域搜索和视频实例追踪等下游任务的性能。
探究是否可利用轮廓检测器生成的分层分组作为对比学习的有效且可扩展的监督信号。
证明一个简单且学习到的视觉原始特征可在缺乏大量标注的情况下，引导复杂视觉理解的建立。

提出的方法

在伯克利分割数据集的500张标注图像上训练轮廓检测器，以生成初始图像分割结果。
将这些分割结果合并为分层区域树，其中合并层级定义了区域之间的距离度量。
基于其分层距离采样像素对：合并层级较近的像素对为正样本对，距离较远或无重叠的区域则为负样本对。
对CNN生成的像素嵌入应用对比损失，促使同一区域或相似区域内的像素嵌入更加接近。
仅使用无标签数据和由层次结构衍生的监督信号，从随机初始化开始训练网络，不使用任何分割标签。
通过K均值聚类评估嵌入在区域搜索中的表现，通过特征相似性评估在视频实例追踪中的表现。

实验结果

研究问题

RQ1能否利用小型有监督视觉原始特征（如轮廓检测）在大规模无标签数据集上生成有效的监督信号，用于自监督表征学习？
RQ2使用分层分组作为监督信号，从随机初始化训练CNN，其学习到的特征是否能与ImageNet预训练方法相媲美甚至更优？
RQ3学习到的像素级嵌入是否能在无需微调的情况下支持语义分割、区域搜索和视频实例追踪等下游任务？
RQ4该方法在PASCAL和COCO等数据集上的性能与MoCo和InstFeat等最先进自监督方法相比如何？
RQ5在包含多个物体的复杂场景中，分层分组信号在多大程度上提升了泛化能力？

主要发现

该方法在仅使用PASCAL和COCO图像（无任何标签）进行语义分割微调时，实现了最先进性能，优于InstFeat，并与MoCo持平。
在PASCAL验证集上，该方法在语义区域搜索任务中达到24.60的平均IoU，显著优于SegSort的10.17。
在DAVIS-2017视频实例追踪数据集上，使用5帧上下文时，该方法达到47.1的区域相似度（J）和48.9的边界准确率（F），优于CycleTime和mgPFF。
通过在特征表示上进行PCA可视化，发现学习到的嵌入同时捕捉了语义类别和实例身份。
该方法在无需动量编码器或内存库的情况下依然有效，相比MoCo等方法简化了训练流程。
该方法在零样本迁移至分割搜索和视频追踪任务时表现强劲，无需任何监督微调，凸显了所学特征的语义丰富性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。