QUICK REVIEW

[논문 리뷰] Enabling Training-Free Text-Based Remote Sensing Segmentation

Jose Sosa, Danila Rukhovich|arXiv (Cornell University)|2026. 02. 19.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

이 논문은 두 개의 학습 불필요 파이프라인을 도입하여 사전 학습된 비전-언어 모델과 SAM을 결합해 오픈 벡터리스(Open-vocabulary), refering, 및 추론 기반 원격 탐지 분할을 수행합니다. 제로샷에서 최첨단 성능을 달성하고 복잡한 프롬프트에 대한 경량 LoRA 튜닝 개선을 제공합니다.

ABSTRACT

Recent advances in Vision Language Models (VLMs) and Vision Foundation Models (VFMs) have opened new opportunities for zero-shot text-guided segmentation of remote sensing imagery. However, most existing approaches still rely on additional trainable components, limiting their generalisation and practical applicability. In this work, we investigate to what extent text-based remote sensing segmentation can be achieved without additional training, by relying solely on existing foundation models. We propose a simple yet effective approach that integrates contrastive and generative VLMs with the Segment Anything Model (SAM), enabling a fully training-free or lightweight LoRA-tuned pipeline. Our contrastive approach employs CLIP as mask selector for SAM's grid-based proposals, achieving state-of-the-art open-vocabulary semantic segmentation (OVSS) in a completely zero-shot setting. In parallel, our generative approach enables reasoning and referring segmentation by generating click prompts for SAM using GPT-5 in a zero-shot setting and a LoRA-tuned Qwen-VL model, with the latter yielding the best results. Extensive experiments across 19 remote sensing benchmarks, including open-vocabulary, referring, and reasoning-based tasks, demonstrate the strong capabilities of our approach. Code will be released at https://github.com/josesosajs/trainfree-rs-segmentation.

연구 동기 및 목표

텍스트 기반 원격 탐지 분할이 기존의 특정 태스크 학습 없이도 얼마나 발전할 수 있는지, 사전 학습된 기초 모델만으로 달성 가능성 탐색
대비 및 생성형 VLM과 SAM을 통합하는 두 가지 파이프라인을 제안해 OVSS, 참조 및 추론 분할을 학습 없이 다루기
다양한 원격 탐지 벤치마크에서 제로샷 및 경량 LoRA 튜닝 성능 평가
완전한 학습 불필요한 대조적 VLM + SAM 접근법이 OVSS에서 최첨단 결과를 달성하고 LoRA 튜닝된 생성형 VLM + SAM 파이프라인이 참조 및 추론 분할에서 SOTA를 달성함을 보임

제안 방법

대조적 VLM(예: CLIP)은 SAM의 격자 기반 제안에 대한 마스크 선택기로 작용하여 완전 학습 불필요한 오픈 벤더볼류 OVSS를 달성합니다.
생성형 VLM(예: GPT-5, Qwen-VL)은 SAM이 참조 및 추론 기반 분할을 수행하도록 공간적 프롬프트(클릭)를 생성합니다; 제로샷이거나 SAM 고정 상태에서 LoRA 미세조정이 가능
제로샷 추론은 CLIP + SAM을 사용합니다; 성능 향상을 위해 LoRA로 조정된 Qwen-VL 백본이 프롬프트를 출력하도록 학습하지만 SAM은 고정 상태를 유지합니다.
생성형 VLM 프롬프트를 위한 학습 데이터는 ground-truth 마스크를 클릭 시퀀스로 변환하는 반복적, 상호작용형 분할에서 영감을 얻은 프로세스로 합성됩니다.
생성형 VLM 파이프라인의 경우 텍스트 프롬프팅 체계가 SAM에 대한 양/음의 클릭을 표현하여 복합 프롬프트 하에서의 유연한 분할을 가능하게 합니다.
아블레이션은 SAM 스케일과 그리드 밀도(29x29 그리드)가 정확도와 계산 간의 최적의 균형을 제공함을 보여줍니다.

Figure 2 : Inference schemes of our segmentation approaches with (a) contrastive and (b) generative VLMs.

실험 결과

연구 질문

RQ1추가 학습 가능한 컴포넌트 없이 기존의 기초 모델만으로 텍스트 기반 원격 탐지 분할이 얼마나 달성될 수 있는가?
RQ2대조적 VLM + SAM 파이프라인이 원격 탐지 데이터에서 제로샷 오픈 벤더볼류 분할에서 최첨단 결과를 달성할 수 있는가?
RQ3생성형 VLM + SAM 파이프라인이 참조 및 추론 기반 분할을 다룰 수 있는가, 그리고 가벼운 LoRA 미세조정이 SAM을 고정한 상태에서 성능을 향상시키는가?
RQ4다양한 RS 데이터셋에서 성능을 극대화하는 실용적 설계 선택( SAM 스케일, 그리드 밀도, 클릭 수)은 무엇인가?

주요 결과

Method	OEM	LoveDA	iSAID	Potsdam	Vaihingen	UAVid	UDD5	VDD	평균
SegEarth-OV [33]	40.3	36.9	21.7	48.5	40.0	42.5	50.6	45.3	39.2
Oracle	64.4	50.0	36.2	74.3	61.2	59.7	56.5	62.9	58.2
CLIP [50]	12.0	12.4	7.5	15.6	10.8	10.9	9.5	14.2	11.4
MaskCLIP [87]	25.1	27.8	14.5	33.9	29.9	28.6	32.4	32.9	27.2
SCLIP [64]	29.3	30.4	16.1	39.6	35.9	31.4	38.7	37.9	31.1
GEM [7]	33.9	31.6	17.7	39.1	36.4	33.4	41.2	39.5	32.3
ClearCLIP [29]	31.0	32.4	18.2	42.0	36.2	36.2	41.8	39.3	33.4
Ours	34.2	38.2	21.9	50.2	40.6	44.3	53.8	46.8	41.3

대조적 VLM 기반 파이프라인은 19개 RS 벤치마크에서 제로샷 OVSS에서 최첨단 성능을 달성하며, 대부분의 데이터세트에서 제로샷 베이스라인 및 SegEarth-OV를 능가합니다.
9개의 단일 클래스 데이터셋에서 대조적 방법은 제로샷 성능이 경쟁적이며 여러 건물/도로/홍수 작업에서 SegEarth-OV를 능가합니다.
생성형 VLM 기반 파이프라인은 제로샷 형태에서 참조 및 추론 작업에 합리적인 성능을 제공하며, SAM이 고정된 상태에서 LoRA 미세조정은 RRSIS-D(참조) 및 EarthReason(추론)에서 최첨단 결과를 제공합니다.
아블레이션은 더 큰 SAM 스케일(SAM-Large)과 29x29 그리드가 최상의 성능을 제공하며, 생성형 VLM에 대한 여섯 번의 학습 시점 클릭이 결과를 크게 향상시킵니다.
태스크 특화 학습과 비교할 때, 제안하는 학습 불필요 접근법은 다양한 RS 모달리티와 지리에서 강력한 일반화를 달성합니다.

Figure 3 : Qualitative results of the training-free contrastive VLM pipeline on multi-class (first and second rows) and single-class (third row) OVSS tasks using remote sensing datasets.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.