[论文解读] Transformer-Based Visual Segmentation: A Survey
本综述评估基于变换器的视觉分割方法,提出一个类似 DETR 的元架构,并按组件设计和在 2D/3D 及医疗领域的应用进行分类。
Visual segmentation seeks to partition images, video frames, or point clouds into multiple segments or groups. This technique has numerous real-world applications, such as autonomous driving, image editing, robot sensing, and medical analysis. Over the past decade, deep learning-based methods have made remarkable strides in this area. Recently, transformers, a type of neural network based on self-attention originally designed for natural language processing, have considerably surpassed previous convolutional or recurrent approaches in various vision processing tasks. Specifically, vision transformers offer robust, unified, and even simpler solutions for various segmentation tasks. This survey provides a thorough overview of transformer-based visual segmentation, summarizing recent advancements. We first review the background, encompassing problem definitions, datasets, and prior convolutional methods. Next, we summarize a meta-architecture that unifies all recent transformer-based approaches. Based on this meta-architecture, we examine various method designs, including modifications to the meta-architecture and associated applications. We also present several closely related settings, including 3D point cloud segmentation, foundation model tuning, domain-aware segmentation, efficient segmentation, and medical segmentation. Additionally, we compile and re-evaluate the reviewed methods on several well-established datasets. Finally, we identify open challenges in this field and propose directions for future research. The project page can be found at https://github.com/lxtGH/Awesome-Segmentation-With-Transformer. We will also continually monitor developments in this rapidly evolving field.
研究动机与目标
- 定义用于 transformer-based 视觉分割的问题空间与数据集。
- 提出一个统一的元架构,扩展 DETR 以用于分割任务。
- 按骨干网络、解码器设计和对象查询对 transformer-based 分割方法进行分类。
- 调研子领域,包括 3D 点云、基础模型微调、领域感知与医疗分割。
- 在标准基准数据集上评估代表性方法并概述未来研究方向。
提出的方法
- 引入一个受 DETR 启发的元架构,包含骨干网络、对象查询和用于分割任务的 transformer 解码器。
- 描述特征金字塔(Neck)和多尺度表示如何细化对象查询。
- 说明像素级和每个掩码的预测表示在不同分割任务中的作用。
- 讨论使用 bipartite matching(Hungarian 算法)和一对一查询与 Ground Truth 的分配的训练过程。
- 提供方法的分类法: Representation Learning(表示学习)、Interaction Design in Decoder(解码器中的交互设计)、Optimizing Object Query(优化对象查询)、Using Query For Association(使用查询进行关联)、和 Conditional Query Generation(条件查询生成)。
- 概述特定任务的扩展,如 3D 点云分割、基础模型微调和医疗分割。
实验结果
研究问题
- RQ1在语义、实例和全景分割任务中,构成统一框架的 transformer-based 视觉分割的要素有哪些?
- RQ2如何对 DETR 类架构进行改造和扩展,以高效处理 2D、视频和 3D 分割?
- RQ3在骨干、颈部(Neck)和查询中的哪些设计选择对跨数据集和任务的性能影响最大?
- RQ4基于查询的关联和条件查询生成如何实现跨任务和跨领域的分割?
- RQ5在 transformer-based 分割领域存在哪些开放挑战和未来方向?
主要发现
- 基于变换器的方法通常采用类似 DETR 的元架构,包含骨干网络、对象查询和用于分割任务的解码器。
- 在不同任务中,使用两种主要的掩码表示:针对实例为中心的任务的每个掩码预测,以及针对语义级分割的像素级预测。
- 训练过程中通常使用带有 Hungarian 分配的双分配匹配,以实现预测与真值之间的一对一对应。
- 在架构中广泛使用 FPN 和多尺度特征来处理尺度变化并细化查询。
- 本综述覆盖并在标准数据集上重新评估方法,并指出该领域的开放挑战和未来方向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。