[论文解读] RSGPT: A Remote Sensing Vision Language Model and Benchmark
RSGPT 对基于 Q-Former 的桥接进行微调,将冻结的遥感编码器与大语言模型连接起来,使用高质量的 RSICap 数据,在 RSIEval 上实现强劲的 RS 描述与 RSVQA 表现。
The emergence of large-scale large language models, with GPT-4 as a prominent example, has significantly propelled the rapid advancement of artificial general intelligence and sparked the revolution of Artificial Intelligence 2.0. In the realm of remote sensing (RS), there is a growing interest in developing large vision language models (VLMs) specifically tailored for data analysis in this domain. However, current research predominantly revolves around visual recognition tasks, lacking comprehensive, large-scale image-text datasets that are aligned and suitable for training large VLMs, which poses significant challenges to effectively training such models for RS applications. In computer vision, recent research has demonstrated that fine-tuning large vision language models on small-scale, high-quality datasets can yield impressive performance in visual and language understanding. These results are comparable to state-of-the-art VLMs trained from scratch on massive amounts of data, such as GPT-4. Inspired by this captivating idea, in this work, we build a high-quality Remote Sensing Image Captioning dataset (RSICap) that facilitates the development of large VLMs in the RS field. Unlike previous RS datasets that either employ model-generated captions or short descriptions, RSICap comprises 2,585 human-annotated captions with rich and high-quality information. This dataset offers detailed descriptions for each image, encompassing scene descriptions (e.g., residential area, airport, or farmland) as well as object information (e.g., color, shape, quantity, absolute position, etc). To facilitate the evaluation of VLMs in the field of RS, we also provide a benchmark evaluation dataset called RSIEval. This dataset consists of human-annotated captions and visual question-answer pairs, allowing for a comprehensive assessment of VLMs in the context of RS.
研究动机与目标
- 由于遥感成像的独特成像模态和缺乏大规模高质量图片-文本数据集,动员在遥感领域的领域特定视觉-语言模型的必要性。
- 引入 RSICap,这是一个高质量、人工标注的遥感图像-文本数据集,便于在遥感领域对 VLMs 进行有效微调。
- 提供 RSIEval,作为面向遥感图像描述和 RSVQA 的全面基准。
- 开发并评估 RSGPT,一个通过微调 Q-Former 和在线性投影在冻结的编码器和 LLM 之上构建的轻量级遥感聚焦 VLM。
提出的方法
- 使用冻结的预训练图像编码器 (EVA-G) 和冻结的大型语言模型 (Vicuna 变体) 作为骨干。
- 在图像编码器与 LLM 之间插入一个具指令感知的 Q-Former,通过带可学习查询的跨注意力将视觉特征与文本提示对齐。
- 通过线性层将 Q-Former 的输出投射到 LLM 输入空间以进行生成。
- 仅对 Q-Former 和线性层在 RSICap 上使用诸如“请详细描述这张图像”的指令进行微调,以适应遥感任务。
- 利用 InstructBLIP 的预训练权重以提升空间推理能力,然后在 RSICap 上进行微调以实现遥感领域适配。
- 在 RSIEval 上针对 RSIC(描述)和 RSVQA(问答)任务进行手工评分评估。
实验结果
研究问题
- RQ1一个轻量级对齐模块(Q-Former)配合冻结的编码器和 LLM,在领域特定微调后是否也能产生有竞争力的遥感视觉-语言能力?
- RQ2高质量的遥感特定描述数据集(RSICap)是否比模型生成的数据集带来更强的遥感 VLM 性能?
- RQ3在 RSICap/RSIEval 基准上,RSGPT 相较于现有 RSVL 模型在描述与 RSVQA 任务上的表现如何?
主要发现
- RSGPT 在多数类别的 RSVQA 中优于 BLIP2、MiniGPT4 和 InstructBLIP,RSVQA 的平均准确率为 65.24,超出表 I 中的其他模型。
- RSGPT 在 RSIC 描述中实现了最佳的细节和位置信息描述分数,与对象级推理的对齐度最高,且在 RSIEval 评估中幻觉现象较少。
- 在 RSVQA 中,RSGPT 显示出最小的相对误差量,表明在遥感场景中的定量推理得到改善。
- RSICap 含有 2,585 对人工标注的遥感图像文本对,提供详细的场景和对象信息,在丰富性和准确性方面优于模型生成的描述。
- RSIEval 提供 100 对图像-描述对与 936 个 VQA 三元组,覆盖对象、图像、场景与推理类别,为鲁棒的遥感 VLM 基准测试提供支持。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。