Skip to main content
QUICK REVIEW

[论文解读] RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model

Keyan Chen, Chenyang Liu|arXiv (Cornell University)|Jun 28, 2023
Remote-Sensing Image Classification被引用 18
一句话总结

本论文提出 RSPrompter,是一个可学习的提示生成器,能够将 SAM 基础模型适配为遥感图像的语义感知实例分割,在多个 RS 数据集上得到验证。

ABSTRACT

Leveraging the extensive training data from SA-1B, the Segment Anything Model (SAM) demonstrates remarkable generalization and zero-shot capabilities. However, as a category-agnostic instance segmentation method, SAM heavily relies on prior manual guidance, including points, boxes, and coarse-grained masks. Furthermore, its performance in remote sensing image segmentation tasks remains largely unexplored and unproven. In this paper, we aim to develop an automated instance segmentation approach for remote sensing images, based on the foundational SAM model and incorporating semantic category information. Drawing inspiration from prompt learning, we propose a method to learn the generation of appropriate prompts for SAM. This enables SAM to produce semantically discernible segmentation results for remote sensing images, a concept we have termed RSPrompter. We also propose several ongoing derivatives for instance segmentation tasks, drawing on recent advancements within the SAM community, and compare their performance with RSPrompter. Extensive experimental results, derived from the WHU building, NWPU VHR-10, and SSDD datasets, validate the effectiveness of our proposed method. The code for our method is publicly available at kychen.me/RSPrompter.

研究动机与目标

  • 研究 SAM 基础模型在遥感实例分割中的适用性。
  • 开发一个可学习的提示生成模块,为 SAM 生成与类别相关的提示。
  • 通过将语义类别信息融入到 SAM 的提示中来改进遥感实例分割。

提出的方法

  • 引入 RSPrompter,一个轻量级特征增强和提示生成器,输出 SAM 的类别相关提示嵌入。
  • 实现两种提示生成器变体(基于锚点/基于查询)以生成实例级提示和语义标签。
  • 使用多尺度特征增强模块来融合 SAM 主干特征,并向提示生成器提供丰富的语义线索。
  • 使用包含 RPN/对象性、语义/分类、框回归,以及基于 SAM 的分割项的综合损失进行训练(以及针对基于查询的提示生成器的最优传输匹配)。
  • 在三个替代的面向 RS 的设置上扩展 SAM(SAM-seg、SAM-cls、SAM-det),以进行对比分析。

实验结果

研究问题

  • RQ1是否可以通过学习提示将 SAM 调整为自动化、具语义感知的遥感实例分割?
  • RQ2哪种提示表示(基于锚点还是基于查询)最能在遥感图像中实现类别特异性掩码?
  • RQ3在不同规模和模态的 RS 数据集上,RS 增强的 SAM 变体(RSPrompter、SAM-seg、SAM-cls、SAM-det)的表现如何?

主要发现

  • RSPrompter 通过学习针对语义类别定制的提示,使遥感图像实现类别感知的实例级分割。
  • 该方法在三个 RS 数据集(WHU building、NWPU VHR-10、SSDD)上得到验证,证明了在 SAM 下学习到的提示的有效性。
  • 本文提供广泛的消融研究和与替代的基于 SAM 的改编(SAM-seg、SAM-cls、SAM-det)的对比。
  • 提出并评估两种提示生成范式(基于锚点和基于查询),目标函数与 Faster R-CNN 风格的损失以及基于查询的变体中的匈牙利匹配保持一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。