QUICK REVIEW

[论文解读] Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment

Utkarsh Mall, Cheng Perng Phoo|arXiv (Cornell University)|Dec 12, 2023

Multimodal Machine Learning Applications被引用 10

一句话总结

本论文提出 GRAFT，一种在不需要文本注释的情况下通过将卫星图像与基于 CLIP 的 ground 图像对齐来训练视觉-语言模型的方法，使得在两种分辨率下实现零样本分类、检索、分割和 VQA，并在监督基线方面获得显著提升。

ABSTRACT

We introduce a method to train vision-language models for remote-sensing images without using any textual annotations. Our key insight is to use co-located internet imagery taken on the ground as an intermediary for connecting remote-sensing images and language. Specifically, we train an image encoder for remote sensing images to align with the image encoder of CLIP using a large amount of paired internet and satellite images. Our unsupervised approach enables the training of a first-of-its-kind large-scale vision language model (VLM) for remote sensing images at two different resolutions. We show that these VLMs enable zero-shot, open-vocabulary image classification, retrieval, segmentation and visual question answering for satellite images. On each of these tasks, our VLM trained without textual annotations outperforms existing VLMs trained with supervision, with gains of up to 20% for classification and 80% for segmentation.

研究动机与目标

在卫星影像上激发开放词汇理解能力，避免昂贵的文本–图像注释。
利用同地互联网地面图像作为中介，将卫星图像与语言连接起来。
开发在 1m（NAIP）和 10m（Sentinel-2）分辨率下工作的图像级和像素级视觉语言模型。
展示卫星图像的零样本分类、检索、分割（结合 SAM）以及 VQA 能力。

提出的方法

以预训练的互联网视觉语言模型（CLIP）作为语言–图像骨干。
训练一个图像级卫星编码器，通过对比损失使其与 CLIP 地面图像编码器对齐，该损失在一个卫星图像对应的多个地面图像上进行聚合（L^I）。
训练一个像素级卫星编码器，利用地面-块对应关系将每个图像补丁映射到一个与 CLIP 兼容的空间（L^P）。
构建两个大型地面–卫星对数据集（NAIP 1m 和 Sentinel-2 10m），其地面图像带有地理标签（来自 Flickr），并且卫星瓷块对齐地理坐标。
利用 SAM 进行零-shot 分割，通过选择高分补丁并以补丁中心为提示来驱动 SAM。
用 ViperGPT 提升零样本 VQA 的能力，以及用 SAM 提升分割质量的 VLM 相关任务。

实验结果

研究问题

RQ1是否可以在没有任何文本注释的情况下训练用于卫星影像的视觉-语言模型？
RQ2通过 CLIP 将卫星图像与同地地面图像对齐，是否能实现对遥感的有效开放词汇识别？
RQ3GRAFT 的图像级和像素级模型在遥感的分类、检索、分割和 VQA 任务上的能力如何？
RQ4在标准 RS 基准上，GRAFT 与监督式 VLMs 以及单-shot 基线相比如何？
RQ5地面-卫星对齐是否能在两种分辨率（NAIP 1m 与 Sentinel-2 10m）下扩展并保持零样本任务的性能？

主要发现

GRAFT 在 EuroSAT、BEN、SAT-4 和 SAT-6 基准测试中的图像分类和检索上实现了最新的零样本性能。
对于 NAIP，使用 ViT-B/32 和 ViT-B/16 主干的 GRAFT 在分类和检索方面显著优于基线。
对于 Sentinel-2，GRAFT 在分类和检索指标上显著优于 CLIP 和先前的 RS-VLM。
使用 GRAFT 的像素级分割明显优于 CLIPSeg，在某些数据集上 SAM 提供额外的提升。
结合 ViperGPT 的零样本 VQA 与 GRAFT 像素级模型，在类似 RSVQA 的任务中实现高于基于 GLIP 的变体的零样本准确率。
消融实验表明，基于地面的中介要优于直接的文本监督，且对卫星采样的仔细控制对良好性能至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。