QUICK REVIEW

[논문 리뷰] Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models

Jielu Zhang, Zhongliang Zhou|arXiv (Cornell University)|2023. 04. 20.

Advanced Image and Video Retrieval Techniques인용 수 31

한 줄 요약

Text2Seg는 여러 시각 기초 모델(SAM, Grounding DINO, CLIP)을 결합하여 텍스트 프롬프트로 SAM을 안내하고 원격 탐지 의미론적 분할을 다양한 데이터셋에서 수행하는 학습 없이 파이프라인을 제안한다. 이는 질적 향상을 보여주고 도메인 시프트 및 범주 정의의 한계에 대해 논의한다.

ABSTRACT

Remote sensing imagery has attracted significant attention in recent years due to its instrumental role in global environmental monitoring, land usage monitoring, and more. As image databases grow each year, performing automatic segmentation with deep learning models has gradually become the standard approach for processing the data. Despite the improved performance of current models, certain limitations remain unresolved. Firstly, training deep learning models for segmentation requires per-pixel annotations. Given the large size of datasets, only a small portion is fully annotated and ready for training. Additionally, the high intra-dataset variance in remote sensing data limits the transfer learning ability of such models. Although recently proposed generic segmentation models like SAM have shown promising results in zero-shot instance-level segmentation, adapting them to semantic segmentation is a non-trivial task. To tackle these challenges, we propose a novel method named Text2Seg for remote sensing semantic segmentation. Text2Seg overcomes the dependency on extensive annotations by employing an automatic prompt generation process using different visual foundation models (VFMs), which are trained to understand semantic information in various ways. This approach not only reduces the need for fully annotated datasets but also enhances the model's ability to generalize across diverse datasets. Evaluations on four widely adopted remote sensing datasets demonstrate that Text2Seg significantly improves zero-shot prediction performance compared to the vanilla SAM model, with relative improvements ranging from 31% to 225%. Our code is available at https://github.com/Douglas2Code/Text2Seg.

연구 동기 및 목표

시각 기초 모델을 원격 감지 의미론 분할에 최소한의 작업 특화 조정으로 재목적화할 수 있는지 동기를 부여하고 탐구한다.
여러 FMs를 활용하여 텍스트 가이드 설정에서 SAM에 지침을 생성하는 프롬프트 엔지니어링 파이프라인을 제안한다.
여러 원격 감지 데이터셋에서 파이프라인을 평가하여 센서, 지역, 해상도에 걸친 강건성 및 일반화 가능성을 평가한다.

제안 방법

시각 기초 모델(SAM, Grounding DINO, CLIP, CLIP Surgery)을 설명하고 3단계 파이프라인에 통합한다.
Grounding DINO와 CLIP Surgery로부터의 SAM 이전 프롬프트(점, 경계 상자)를 사용하여 SAM 분할을 제약한다.
텍스트 프롬프트와의 의미적 유사성에 따라 SAM 유도 마스크를 선택하기 위해 CLIP를 이용한 SAM 이후 필터링을 사용한다.
데이터셋 전반에 걸친 모델 입력 조합(Grounding DINO+SAM, CLIPS+SAM, SAM+CLIP, Grounding DINO+CLIPS+SAM 등)을 테스트한다.
원격 감지에서 분할 경계를 측정하기 위한 기준선으로 그리드 포인트 프롬프트를 사용한 SAM의 일반적 분할을 조사한다.

실험 결과

연구 질문

RQ1다수의 시각 기초 모델을 효과적으로 결합하여 원격 감지에서 태스크 특화 미세 조정 없이 SAM을 의미론적 분할에 지시할 수 있는가?
RQ2다양한 원격 감지 데이터셋에서 어떤 pre-SAM 및 post-SAM 프롬프트 조합이 가장 정확한 의미론 분할을 산출하는가?
RQ3원격 감지 데이터의 도메인 특성(예: 색 채널, 해상도, 센서)이 텍스트-가이드 FM 파이프라인의 성능에 어떻게 영향을 미치는가?
RQ4고해상도 원격 감지 영상에 적용할 때 현재 FMs(SAM, Grounding DINO, CLIP)의 한계와 실패 모드는 무엇인가?

주요 결과

Grounding DINO + SAM을 사용하면 UAV 및 도시 풍경에서 종종 정확하고 보수적인 분할 결과를 얻는다.
Grounding DINO, CLIP Surgery, SAM, 그리고 CLIP의 조합이 일반적으로 데이터셋 전반에서 가장 포괄적인 분할을 생성한다.
데이터셋 및 범주에 따라 성능이 달라지며, 건물, 도로, 물은 일반적으로 황무지, 숲, 배경 범주보다 쉬운 편이다.
Vaihingen 및 Potsdam 데이터셋은 센서 특성(예: NIR 효과)으로 인해 트리 분할에 영향을 주는 뚜렷한 차이를 보인다.
해당 파이프라인은 더 추상적인 범주와 도메인 특정 색 채널에서 한계가 있는 우수한 질적 결과를 보인다.
CLIP 기반 후처리는 SAM 결과를 필터링할 수 있지만 텍스트 프롬프트와 이미지 특성에 따라 오류를 일으킬 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.