[论文解读] Few-Shot Segmentation Propagation with Guided Networks
本论文为少样本分割引入引导网络,从稀疏支持标注中提取任务表示,并在不进行进一步优化的情况下对新输入进行分割,实现跨图像、时间和场景的快速传播。
Learning-based methods for visual segmentation have made progress on particular types of segmentation tasks, but are limited by the necessary supervision, the narrow definitions of fixed tasks, and the lack of control during inference for correcting errors. To remedy the rigidity and annotation burden of standard approaches, we address the problem of few-shot segmentation: given few image and few pixel supervision, segment any images accordingly. We propose guided networks, which extract a latent task representation from any amount of supervision, and optimize our architecture end-to-end for fast, accurate few-shot segmentation. Our method can switch tasks without further optimization and quickly update when given more guidance. We report the first results for segmentation from one pixel per concept and show real-time interactive video segmentation. Our unified approach propagates pixel annotations across space for interactive segmentation, across time for video segmentation, and across scenes for semantic segmentation. Our guided segmentor is state-of-the-art in accuracy for the amount of annotation and time. See http://github.com/shelhamer/revolver for code, models, and more details.
研究动机与目标
- 通过极少像素级标注实现分割,从而降低标注负担。
- 开发一个以任务为驱动、端到端可训练的框架,能够在有引导的情况下切换任务。
- 使用统一方法在空间(图像)、时间(视频)和场景(语义类别)之间传播标注。
- 当获得新引导时实现实时交互式更新。
提出的方法
- 引入带有引导 g 的引导网络,从稀疏标注中提取潜在任务表示 z。
- 使用两分支架构:一个总结支持信息为 z 的引导(g)分支,和一个给定 z 的推理(f)分支,用于对查询进行分割。
- 采用图像和标注流的后期融合(late fusion)来形成 z,从而通过重新计算掩码而非特征实现快速更新。
- 对每个位置的任务表示进行全局池化,形成可跨空间和时间传播的任务向量。
- 在从密集分割数据合成的分割任务上进行 episodic、少样本训练,同时端到端优化引导和分割器。
- 评估条件化策略(特征融合、参数回归、原型),并选择特征融合作为首选的引导机制。
实验结果
研究问题
- RQ1一个单一的前馈引导网络是否能够处理极其稀疏到密集标注的多任务分割?
- RQ2应如何将支持信息(标注)与图像融合,形成用于引导推理的有效任务表示?
- RQ3在少样本设置中,结构化输出分割的最佳引导策略(特征融合、参数回归、原型)是什么?
- RQ4所提出的方法在交互式图像分割、语义分割和视频对象分割上的表现如何,包括实时交互式视频分割?
- RQ5当引导量(S shots、P 像素)变化时,模型是否保持准确性,是否能通过额外标注快速更新?
主要发现
- 引导网络在交互式分割、视频对象分割和少样本语义分割中实现了稀疏标注的最新精度。
- 图像和标注流的后期融合与全局池化提升了精度,并在提供新标注时实现快速更新。
- 对于互动和视频任务,引导实现实时或近实时更新,明显快于微调方法。
- 在 Pascal VOC 的语义分割中,仅需少量像素(如每个类别只有两像素)就达到强的性能,在稀疏场景接近密集标注基线。
- 在 DAVIS 2017 视频对象分割中,在稀疏模式下为最先进,在密集模式下保持竞争的速度(例如在密集模式下拥有 33.3% 的准确度,相较同等时间范围内的同行有 80% 的相对提升)。
- 该方法支持跨模态迁移,在仅用单一模态进行训练的单一模型上实现图像、视频和语义任务之间的跨模式迁移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。