QUICK REVIEW

[논문 리뷰] Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment

Utkarsh Mall, Cheng Perng Phoo|arXiv (Cornell University)|2023. 12. 12.

Multimodal Machine Learning Applications인용 수 10

한 줄 요약

이 논문은 텍스트 주석 없이 위성 영상에 대해 CLIP 기반의 지상 이미지를 정렬하여 GRAFT를 제시한다. 두 해상도에서 무감독 분류, 검색, 분할 및 VQA를 가능하게 하며, 감독 BASelines 대비 큰 향상을 보인다.

ABSTRACT

We introduce a method to train vision-language models for remote-sensing images without using any textual annotations. Our key insight is to use co-located internet imagery taken on the ground as an intermediary for connecting remote-sensing images and language. Specifically, we train an image encoder for remote sensing images to align with the image encoder of CLIP using a large amount of paired internet and satellite images. Our unsupervised approach enables the training of a first-of-its-kind large-scale vision language model (VLM) for remote sensing images at two different resolutions. We show that these VLMs enable zero-shot, open-vocabulary image classification, retrieval, segmentation and visual question answering for satellite images. On each of these tasks, our VLM trained without textual annotations outperforms existing VLMs trained with supervision, with gains of up to 20% for classification and 80% for segmentation.

연구 동기 및 목표

위성 영상에 대한 비용이 많이 드는 텍스트–이미지 주석 없이도 개방 어휘 이해를 촉진한다.
위성 이미지와 언어를 연결하는 중개자로 공동 위치의 인터넷 지상 이미지를 활용한다.
1m(NAIP) 및 10m(Sentinel-2) 해상도에서 작동하는 이미지 레벨 및 픽셀 레벨 VLM을 개발한다.
위성 영상에 대해 무감독 분류, 검색, 세분화(SAM 포함) 및 VQA 기능을 입증한다.

제안 방법

언어–이미지 백본으로 사전 학습된 인터넷 VLM(CLIP)을 사용한다.
다양한 지상 이미지에 대해 L^I로 앵커링하는 대조 손실을 이용해 위성 이미지의 CLIP 지상 이미지 인코더와 정렬되도록 이미지 레벨 위성 인코더를 학습한다.
지상-패치 대응을 사용해 각 이미지 패치를 CLIP 호환 공간으로 맵핑하는 픽셀 레벨 위성 인코더를 학습한다(L^P).
지오태그가 붙은 지상 이미지를 포함한 대형 지상–위성 쌍 데이터셋(NAIP 1m, Sentinel-2 10m)을 구성하고 GEO 정렬된 타일을 수집한다(지오태그된 지상 이미지는 Flickr에서).
고점 패치를 선택하고 패치 중심으로 SAM을 프롬프트하는 방식으로 제로샷 세분화(SAM) 기능을 활용한다.
ViperGPT를 이용한 제로샷 VQA 및 SAM을 통한 세분화 품질 개선으로 VLM 기반 작업을 강화한다.

실험 결과

연구 질문

RQ1위성 영상에 대한 텍스트 주석 없이도 비주얼-랭귀지 모델을 훈련시킬 수 있는가?
RQ2CLIP을 통해 지상 이미지와의 연계를 통해 위성 영상이 개방 어휘 인식이 가능하게 만드는가?
RQ3이미지 레벨 및 픽셀 레벨 GRAFT 모델이 원격 감지의 분류, 검색, 세분화 및 VQA 작업에서 어떤 성능을 보이는가?
RQ4GRAFT는 표준 RS 벤치마크에서 감독 VLM 및 원샷 baselines와 비교해 어떤 차이를 보이는가?
RQ5지상-위성 정렬이 두 해상도(NAIP 1m 및 Sentinel-2 10m)에서 규모화를 유지하며 제로샷 작업에 대해 성능을 유지하는가?

주요 결과

GRAFT는 EuroSAT, BEN, SAT-4, SAT-6 벤치마크에서 이미지 분류 및 검색의 제로샷 성능에서 최신 상태를 달성한다.
NAIP의 경우 ViT-B/32 및 ViT-B/16 백본과 함께 GRAFT가 분류 및 검색에서기준 대비 현저히 우수하다.
Sentinel-2의 경우 GRAFT가 CLIP 및 기존 RS-VLM 대비 분류 및 검색 지표에서 현저한 향상을 보인다.
픽셀 레벨 세분화에서 GRAFT가 CLIPSeg보다 크게 우수하며, SAM은 일부 데이터셋에서 추가 이점을 제공한다.
RSVQA 유사 작업에서 ViperGPT와 GRAFT 픽셀 레벨 모델을 함께 사용할 때 GLIP 기반 변형보다 제로샷 정확도가 더 높다.
아블레이션 결과ground 기반 중개체가 직접 텍스트 감독보다 우수하며, 좋은 성능을 위해 위성 샘플링이 중요하다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.