QUICK REVIEW

[논문 리뷰] VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding

Xiang Li, Jian Ding|arXiv (Cornell University)|2024. 06. 18.

Advanced Image and Video Retrieval Techniques인용 수 9

한 줄 요약

VRSBench는 원격 감지용 대규모의 인간 확인된 비전-언어 벤치마크를 제공하며, 29,614장의 이미지, 캡션, 객체 참조, 그리고 123,221개의 VQA 페어가 포함되어 있고, 캡션 생성, 그라운딩, VQA에 대해 평가됩니다.

ABSTRACT

We introduce a new benchmark designed to advance the development of general-purpose, large-scale vision-language models for remote sensing images. Although several vision-language datasets in remote sensing have been proposed to pursue this goal, existing datasets are typically tailored to single tasks, lack detailed object information, or suffer from inadequate quality control. Exploring these improvement opportunities, we present a Versatile vision-language Benchmark for Remote Sensing image understanding, termed VRSBench. This benchmark comprises 29,614 images, with 29,614 human-verified detailed captions, 52,472 object references, and 123,221 question-answer pairs. It facilitates the training and evaluation of vision-language models across a broad spectrum of remote sensing image understanding tasks. We further evaluated state-of-the-art models on this benchmark for three vision-language tasks: image captioning, visual grounding, and visual question answering. Our work aims to significantly contribute to the development of advanced vision-language models in the field of remote sensing. The data and code can be accessed at https://github.com/lx709/VRSBench.

연구 동기 및 목표

기존 원격 감지 비전-언어 데이터셋의 한계(단일 태스크 집중, 낮은 객체 상세도, 품질 관리) 해결
자세한 캡션, 객체 참조, 개방형 VQA를 포함한 대규모의 통합 데이터셋 제공
원격 감지에서 캡션 생성, 그라운딩, VQA에 걸친 비전-언어 모델의 학습 및 평가 가능
주석 품질 보장을 위한 인간 검증이 포함된 반자동 데이터 수집 파이프라인 제안
세 가지 벤치마크(캡션 생성, 그라운딩, VQA) 및 최첨단 모델에 대한 기본 평가 제공

제안 방법

속성 추출, 프롬프트 엔지니어링, GPT-4 추론, 인간 검증의 네 단계로 구성된 반자동 데이터 수집 파이프라인 도입
객체 속성 및 바운딩 박스를 위한 소스로 DOTA-v2와 DIOR를 사용하여 방향성 바운딩 박스(OBB)로 그라운딩 가능하게 함
캡션, 객체 지시 문장, QA 쌍 생성을 위한 신중한 프롬프트 설계 후 인간 검증
자세한 캡션, 이미지당 1–5개의 객체 지시 문장, 이미지당 3–10개의 VQA 쌍을 포함한 주석 제공
세 가지 벤치마크(VRSBench-Cap, VRSBench-Ref, VRSBench-VQA) 구축 및 VRSBench에서의 파인튜닝으로 베이스라인 모델 평가
표준 지표(BLEU, ROUGE_L, METEOR, CIDEr)를 캡션에 대해; 그라운딩은 Acc@IoU; VQA는 질문 유형별 정확도로 평가

Figure 1 : Examples of an image and corresponding annotations in VRSBench dataset. Our annotations include object referring, visual question answering, and detailed captions.

실험 결과

연구 질문

RQ1VRSBench에서 평가했을 때 현재의 비전-언어 모델이 원격 감지의 상세 캡션 생성, 그라운딩, VQA 작업에서 얼마나 잘 수행하는가?
RQ2VRSBench에서 일반ist 비전-언어 모델을 파인튜닝하면 캡션, 그라운딩, VQA 전반의 성능이 크게 향상되는가?
RQ3그라운딩 및 VQA 작업에서 명시적 객체 정보(속성, 바운딩 박스)를 포함하는 것이 원격 감지 이미지에 미치는 상대적 영향은 무엇인가?
RQ4명시적 객체 정보가 없는 프롬프트를 제공했을 때 GPT-4V의 이러한 작업 성과는 VRSBench에서 학습된 모델과 비교하여 어떤가?

주요 결과

VRSBench는 원격 감지 이미지에 대해 세 가지 작업(캡션 생성, 그라운딩, VQA)의 대규모 평가를 가능하게 한다.
파인튜닝된 LVM들(e.g., LLaVA-1.5)이 가장 높은 캡션 메트릭(BLEU-1 48.1, CIDEr 33.9) 달성, 캡션 평균 길이 52단어.
GPT-4V는 강력한 캡션 및 VQA 성과를 보여주지만(캡션: BLEU-1 37.2, CIDEr 19.1; VQA 평균 65.6), 객체 속성이 제공되지 않으면 그라운딩 성능은 저조하다.
그라운딩 결과는 파인튜닝 모델이 기준선보다 우수함을 보여주며, 고유 객체 지시가 비고유보다 더 쉬움(일부 설정에서 GeoChat가 전체적으로 Acc@0.5 39.6% 달성).
VQA 결과는 VRSBench에서의 파인튜닝으로 큰 이득을 보여주며(GeoChat w ft 평균 정확도 60.6%; GPT-4V 평균 65.6%).
데이터셋은 29,614장의 이미지와 29,614개의 캡션, 52,472개의 참조 문장, 123,221개의 VQA 쌍으로 구성되며, 512×512 RGB 영상 사용。

Figure 2 : Dataset creation pipeline. We generate object information from detection labels and use carefully designed instructions to prompt GPT-4 to generate annotations from input images along with object information. All annotations are verified by human annotators.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.