[논문 리뷰] RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model
논문은 SAM 기반 모델을 원격 sensing 영상의 의미론적으로 인식 가능한 인스턴스 분할에 적응시키는 학습 가능한 프롬프트 생성기 RSPrompter를 제안하고, 다수의 RS 데이터셋에서 검증한다.
Leveraging the extensive training data from SA-1B, the Segment Anything Model (SAM) demonstrates remarkable generalization and zero-shot capabilities. However, as a category-agnostic instance segmentation method, SAM heavily relies on prior manual guidance, including points, boxes, and coarse-grained masks. Furthermore, its performance in remote sensing image segmentation tasks remains largely unexplored and unproven. In this paper, we aim to develop an automated instance segmentation approach for remote sensing images, based on the foundational SAM model and incorporating semantic category information. Drawing inspiration from prompt learning, we propose a method to learn the generation of appropriate prompts for SAM. This enables SAM to produce semantically discernible segmentation results for remote sensing images, a concept we have termed RSPrompter. We also propose several ongoing derivatives for instance segmentation tasks, drawing on recent advancements within the SAM community, and compare their performance with RSPrompter. Extensive experimental results, derived from the WHU building, NWPU VHR-10, and SSDD datasets, validate the effectiveness of our proposed method. The code for our method is publicly available at kychen.me/RSPrompter.
연구 동기 및 목표
- SAM 기반 모델의 원격 탐지 인스턴스 분할 적용 가능성 조사.
- SAM을 위한 범주 관련 프롬프트를 생성하는 학습-프롬프트 모듈 개발.
- SAM에 의미론적 범주 정보를 프롬프트로 반영하여 RS 인스턴스 분할 성능 향상.
제안 방법
- RSPrompter를 도입하여 SAM용 범주 관련 프롬프트 임베딩을 출력하는 경량 feature enhancer 및 프롬프트 생성기.
- 인스턴스 수준 프롬프트와 의미 레이블을 생성하기 위한 두 가지 프롬프터 변형(앵커 기반 및 질의 기반) 구현.
- 다중 스케일 feature enhancer를 사용해 SAM 백본 특징을 융합하고 프롬프터에 풍부한 의미 신호 제공.
- RPN/객체성, 의미/분류, 박스 회귀, SAM 기반 분할 항목(질의 기반 프롬프터의 경우 최적 수송 매칭) 등을 포함하는 합성 손실로 학습.
- 비교 분석을 위해 RS 지향의 세 가지 대안적 SAM 설정(SAM-seg, SAM-cls, SAM-det)으로 확장.
실험 결과
연구 질문
- RQ1SAM을 학습된 프롬프트를 통해 원격 sensing의 자동적이고 의미론적으로 인식 가능한 인스턴스 분할에 적용할 수 있는가?
- RQ2RS 영상에서 범주별 마스크를 가장 잘 가능하게 하는 프롬프트 표현(앵커 기반 또는 질의 기반)은 무엇인가?
- RQ3다양한 크기와 모드를 가진 RS 데이터셋에서 RS-강화 SAM 변형(RSPrompter, SAM-seg, SAM-cls, SAM-det)은 어떻게 성능을 내는가?
주요 결과
- RSPrompter는 의미 범주에 맞춘 프롬프트를 학습해 RS 영상에서 범주 인식 가능한 인스턴스 수준 분할 결과를 가능하게 한다.
- 이 방법은 세 가지 RS 데이터셋(WHU 건물, NWPU VHR-10, SSDD)에서 검증되어 학습된 프롬프트와 SAM의 효용성을 보여준다.
- 본 논문은 대안적인 SAM 기반 적응(SAM-seg, SAM-cls, SAM-det)과의 광범위한 제거 및 비교를 제공한다.
- 두 가지 프롬프트 생성 패러다임(앵커 기반 및 질의 기반)을 제안하고 평가했으며, 목적 함수는 Faster R-CNN 스타일 손실 및 질의 기반 변형의 헝가리 매칭과 일치한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.