QUICK REVIEW

[논문 리뷰] SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model

Di Wang, Jing Zhang|arXiv (Cornell University)|2023. 05. 03.

Remote-Sensing Image Classification인용 수 48

한 줄 요약

논문은 SAM을 기존 RS 객체 탐지 데이터와 함께 사용하여 대규모 원격 탐지 분할 데이터셋(SAMRS)을 구축하고, RS 태스크를 위한 분할 사전 학습 혜택을 시연합니다.

ABSTRACT

The success of the Segment Anything Model (SAM) demonstrates the significance of data-centric machine learning. However, due to the difficulties and high costs associated with annotating Remote Sensing (RS) images, a large amount of valuable RS data remains unlabeled, particularly at the pixel level. In this study, we leverage SAM and existing RS object detection datasets to develop an efficient pipeline for generating a large-scale RS segmentation dataset, dubbed SAMRS. SAMRS totally possesses 105,090 images and 1,668,241 instances, surpassing existing high-resolution RS segmentation datasets in size by several orders of magnitude. It provides object category, location, and instance information that can be used for semantic segmentation, instance segmentation, and object detection, either individually or in combination. We also provide a comprehensive analysis of SAMRS from various aspects. Moreover, preliminary experiments highlight the importance of conducting segmentation pre-training with SAMRS to address task discrepancies and alleviate the limitations posed by limited training data during fine-tuning. The code and dataset will be available at https://github.com/ViTAE-Transformer/SAMRS.

연구 동기 및 목표

SAM과 기존 탐지 데이터세트를 활용하여 원격 탐지에서 효율적인 픽셀 수준 주석을 촉진합니다.
의미론적, 인스턴스 및 바운딩 박스 정보를 갖춘 대규모의 다양한 RS 분할 데이터셋(SAMRS)을 생성합니다.
SAM 기반 프롬프트와 사전 학습(SEP)이 RS 분할 성능에 미치는 영향을 분석합니다.
다양한 RS 분할 아키텍처와 백본 타입에서 SEP를 평가합니다.
데이터가 부족할 때 분할 사전 학습의 실용적 이점을 시연합니다.

제안 방법

기존 RS 객체 탐지 데이터세트를 사용하여 SAM으로 픽셀 수준의 분할 마스크를 생성합니다.
탐지 주석을 여섯 가지 프롬프트 변형(CP, H-Box, RH-Box 및 해당 마스크 대응물)으로 마스크 프롬프트로 변환합니다.
SAM 기반 주석에 적합한 크기로 DOTA-V2.0, FAIR1M-2.0, DIOR 데이터세트를 자르거나 재조정합니다.
서로 다른 카테고리 수를 가진 여러 데이터세트를 다루기 위한 다중 헤드 사전 학습 접근법을 촉진합니다.
SAM 생성 마스크를 다양한 백본 모델 및 학습 체계와 결합하여 분할 사전 학습(SEP)을 수행합니다.
프롬프트 유형을 비교하고 아키텍처 간 SEP 효과를 평가하기 위한 제거 실험(ablation)을 수행합니다.

실험 결과

연구 질문

RQ1SAM 유도 프롬프트가 기존 탐지 주석을 변환할 때 고품질의 픽셀 수준 RS 분할을 생성할 수 있습니까?
RQ2서로 다른 프롬프트 유형이 SAM 기반 RS 분할 정확도에 미치는 영향은 무엇입니까?
RQ3SAMRS에서의 분할 사전 학습이 특히 라벨 데이터가 제한될 때 다운스트림 RS 분할 성능을 향상시키나요?
RQ4SEP가 RS 태스크에서 다양한 백본과 분할 아키텍처와 어떻게 상호작용합니까?
RQ5기존 RS 분할 데이터세트와 비교할 때 SAMRS의 확장성 및 다양성 이점은 무엇입니까?

주요 결과

SAMRS는 105,090 이미지와 1,668,241 인스턴스로 구성되어 기존의 RS 분할 데이터세트를 몇 배 초월합니다.
프롬프트 중 수평 박스 프롬프트(H-Box)가 일반적으로 최상의 분할 성능을 보이며, RH-Box도 회전된 박스만 사용 가능한 경우 효과적입니다.
SAMRS에서의 분할 사전 학습(SEP)은 여러 백본과 아키텍처에서 다운스트림 RS 분할 성능을 향상시키며, 특히 학습 데이터가 부족한 경우에 그렇습니다.
SEP와 SAMRS를 결합하면 ImageNet이나 MAE와 같은 기본 사전 학습 전략보다 여러 구성에서 더 나은 성능을 낼 수 있습니다.
엔드투엔드 모델인 Mask2Former는 SEP에서 혼합된 이득을 보였으며, RS 데이터에 대해 모델별 최적화가 필요함을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.