QUICK REVIEW

[论文解读] SegGPT: Segmenting Everything In Context

Xinlong Wang, Xiaosong Zhang|arXiv (Cornell University)|Apr 6, 2023

Domain Adaptation and Few-Shot Learning被引用 61

一句话总结

SegGPT 是一个通用模型，将多种分割任务统一到一个上下文学习框架中，能够在图像或视频中对实例、物体、部分、轮廓和文本进行分割，而无需任务特定的架构。它使用随机的上下文着色和基于上下文的提示，通过上下文推理执行各种分割任务。

ABSTRACT

We present SegGPT, a generalist model for segmenting everything in context. We unify various segmentation tasks into a generalist in-context learning framework that accommodates different kinds of segmentation data by transforming them into the same format of images. The training of SegGPT is formulated as an in-context coloring problem with random color mapping for each data sample. The objective is to accomplish diverse tasks according to the context, rather than relying on specific colors. After training, SegGPT can perform arbitrary segmentation tasks in images or videos via in-context inference, such as object instance, stuff, part, contour, and text. SegGPT is evaluated on a broad range of tasks, including few-shot semantic segmentation, video object segmentation, semantic segmentation, and panoptic segmentation. Our results show strong capabilities in segmenting in-domain and out-of-domain targets, either qualitatively or quantitatively.

研究动机与目标

目标是构建一个单一的通用模型，能够在不同数据类型（语义、实例、全景、部件、文本、航拍/医疗）之间解决多样化的分割任务，而无需任务特定的架构。
通过将所有分割数据转换为模型可通过着色重构的通用图像格式表示，来利用上下文学习。
开发训练和推断策略（随机着色、上下文集成、上下文内调优），以实现灵活的、跨领域的分割能力。
在图像和视频的领域内外分割基准上展示模型的性能，同时不期望在所有任务上都达到最先进水平。

提出的方法

将分割任务重新表述为 Painter 框架中的上下文图像着色问题，使用原生 ViT 主干和 smooth-L1 损失。
引入随机着色方案，以防止对固定颜色映射的依赖，强制进行基于上下文的任务完成。
使用上下文内和混合上下文训练，在不改变架构的情况下统一语义、实例、全景、部件等分割数据。
提出上下文集成策略（空间集成和特征集成），在推断时融合来自多个示例的信息。
通过冻结模型并优化一个可学习的输入-上下文张量来实现上下文内调优，以适应特定数据集或场景。

实验结果

研究问题

RQ1一个单一的通用模型是否能够在图像和视频中执行广泛的分割任务（语义、实例、全景、部件、轮廓、文本）？
RQ2随机上下文着色和混合上下文训练是否能提升对跨域分割任务的泛化能力？
RQ3上下文集成和上下文内调优如何影响在少样本和视频对象分割基准上的性能？
RQ4在跨越多样数据集使用单一 SegGPT 模型时，领域内性能与泛化之间存在哪些权衡？

主要发现

SegGPT 在少样本语义分割基准上取得有竞争力的结果，在领域内和跨域设置下超越了一些专业和通用基线。
在视频对象分割中，尽管未在视频数据上进行训练，SegGPT 仍对比专业方法获得有竞争力的分数；上下文集成提高了帧级准确性。
在 ADE20K 语义分割和 COCO 全景分割上进行上下文内调优时，SegGPT 的表现与专业方法相比具有竞争力或略低，凸显使用随机着色时的权衡。
上下文集成方法（空间集成和特征集成）带来显著提升，特征集成在较高分辨率的视频数据集上通常提供更好的性能。
该模型在广泛任务上展示了强大的定性能力（部件/对象分割、文本分割、视频对象分割），无需任务特定的训练。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。