[论文解读] ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment Anything to SAR Domain for Semantic Segmentation
CWSAM 将 SAM 调整用于 SAR 地表覆盖分割,采用冻结的 SAM 配合适配器、一个类级掩码解码器,以及一个低频 SAR 输入模块,在更少的可训练参数的情况下实现了最先进的结果。
In the realm of artificial intelligence, the emergence of foundation models, backed by high computing capabilities and extensive data, has been revolutionary. Segment Anything Model (SAM), built on the Vision Transformer (ViT) model with millions of parameters and vast training dataset SA-1B, excels in various segmentation scenarios relying on its significance of semantic information and generalization ability. Such achievement of visual foundation model stimulates continuous researches on specific downstream tasks in computer vision. The ClassWise-SAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on space-borne Synthetic Aperture Radar (SAR) images. The proposed CWSAM freezes most of SAM's parameters and incorporates lightweight adapters for parameter efficient fine-tuning, and a classwise mask decoder is designed to achieve semantic segmentation task. This adapt-tuning method allows for efficient landcover classification of SAR images, balancing the accuracy with computational demand. In addition, the task specific input module injects low frequency information of SAR images by MLP-based layers to improve the model performance. Compared to conventional state-of-the-art semantic segmentation algorithms by extensive experiments, CWSAM showcases enhanced performance with fewer computing resources, highlighting the potential of leveraging foundational models like SAM for specific downstream tasks in the SAR domain. The source code is available at: https://github.com/xypu98/CWSAM.
研究动机与目标
- 将 SAM 桥接到 SAR 领域,以对 SAR 图像中的地表覆盖进行分割。
- 实现一个参数高效的微调框架下的语义分割。
- 设计一个类级掩码解码器,以实现多类像素标注。
- 引入一个面向任务的输入模块,通过低频 SAR 信息注入来融合。
- 在 FUSAR-Map1.0 和 FUSAR-Map2.0 数据集上展示效率和精度优势。
提出的方法
- 冻结 SAM 的 Vision Transformer 编码器,在每个变换器块中插入轻量级适配器,以实现参数高效微调。
- 引入一个类级掩码解码器,通过专用的类级预测通道输出多类掩码,且来自通常是二值的 SAM 掩码。
- 附加一个面向任务的输入模块,通过基于 MLP 的融合将 2D FFT 派生特征与 SAM 嵌入相结合,从而注入低频 SAR 信息。
- 使用加权交叉熵损失进行训练,以处理地表覆盖类别不平衡。
- 在学习少量新增参数的同时,保持 SAM 的提示编码和掩码解码架构不变。
实验结果
研究问题
- RQ1与对 SAM 进行全量微调相比,ClassWise-SAM-Adapter 是否在显著更少的可训练参数下实现有竞争力的 SAR 地表覆盖分割?
- RQ2相对于 SAM 的原始掩码输出,类级掩码解码器在 SAR 图像中是否提供有意义的多类分割?
- RQ3引入低频 SAR 信息对分割性能的影响是什么?
- RQ4在 FUSAR-Map1.0 和 FUSAR-Map2.0 上,CWSAM 与最先进的语义分割方法在 mIoU 等指标方面的比较如何?
主要发现
- CWSAM 在 FUSAR-Map1.0 上实现 mIoU 61.48,在多个指标上优于若干最先进方法(如 SegFormer 变体)。
- 在 FUSAR-Map1.0 上,CWSAM 的 OA 82.14 和 Accuracy 73.45,表明总体性能健壮。
- 在 FUSAR-Map2.0 上,CWSAM 获得 mIoU 36.03 和 OA 67.67,是对比方法中整体性能最佳。
- 该方法在类别维度上具有较强的表现和边界勾勒,在道路、建筑等具有挑战性的类别上有显著提升。
- CWSAM 使用冻结的 SAM 参数的轻量级适配器设置,使训练高效、可训练参数更少、内存占用减少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。