[论文解读] SAM2-Adapter: Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More
SAM2-Adapter 在 SAM2 的基础上增设多适配器设计,以使其分割骨干适应下游任务,在隐蔽目标检测、阴影检测和息肉分割等领域达到新的SOTA。
The advent of large models, also known as foundation models, has significantly transformed the AI research landscape, with models like Segment Anything (SAM) achieving notable success in diverse image segmentation scenarios. Despite its advancements, SAM encountered limitations in handling some complex low-level segmentation tasks like camouflaged object and medical imaging. In response, in 2023, we introduced SAM-Adapter, which demonstrated improved performance on these challenging tasks. Now, with the release of Segment Anything 2 (SAM2), a successor with enhanced architecture and a larger training corpus, we reassess these challenges. This paper introduces SAM2-Adapter, the first adapter designed to overcome the persistent limitations observed in SAM2 and achieve new state-of-the-art (SOTA) results in specific downstream tasks including medical image segmentation, camouflaged (concealed) object detection, and shadow detection. SAM2-Adapter builds on the SAM-Adapter's strengths, offering enhanced generalizability and composability for diverse applications. We present extensive experimental results demonstrating SAM2-Adapter's effectiveness. We show the potential and encourage the research community to leverage the SAM2 model with our SAM2-Adapter for achieving superior segmentation outcomes. Code, pre-trained models, and data processing protocols are available at http://tianrun-chen.github.io/SAM-Adaptor/
研究动机与目标
- 评估 SAM2 在具有挑战性的下游分割任务(隐蔽、阴影、医学影像)上的局限性。
- 开发 SAM2-Adapter,使用多适配器策略将任务特定知识整合到 SAM2。
- 在 CAMO/CAMO COD10K、ISTD 阴影检测以及 kvasir-SEG 息肉分割上展示 SOTA 性能。
- 表明 SAM2-Adapter 从 SAM2 的骨干网和专用适配器中获益,具有更好的泛化性和可组合性。
提出的方法
- 以 SAM2 作为骨干网,冻结 Hiera 图像编码器并微调 SAM2 掩码解码器。
- 引入每个阶段包含两个 MLP 的任务特定适配器,通过 F^i 生成提示 P^i,实现基于提示的条件化。
- 使用对齐到 SAM2 四个分层阶段的四个适配器(各阶段内共享),以利用多分辨率特征。
- 结合视觉知识 F^i(如 F_hfc 和 F_pe)来形成提示,实现对任务的灵活条件化(F_i = sum_j w_j F_j)。
- 使用适当的损失函数进行任务特定监督训练(如 COD 的 BCE、阴影检测的 BER、息肉分割的 Dice/IoU)。
- 在 CAMO、CHAMELEON、COD10K(隐蔽目标检测)、ISTD(阴影检测)以及 kvasir-SEG(息肉分割)上进行评估。
实验结果
研究问题
- RQ1尽管拥有更大的训练语料和架构,SAM2 在下游分割中的挑战是否仍然存在?
- RQ2带有多阶段适配器的 SAM2-Adapter 是否能够在隐蔽目标检测、阴影检测和息肉分割上达到最先进的结果?
- RQ3在性能和适配器配置方面,SAM2-Adapter 与 SAM-Adapter 和 SAM2 的对比如何?
- RQ4性能提升是由于更强的 SAM2 骨干、适配器架构,还是两者的结合?
主要发现
- SAM2-Adapter 在隐蔽目标检测数据集(COD10K、CAMO)和隐蔽基准(CHAMELEON)上实现 SOTA 性能。
- 在阴影检测(ISTD)中,SAM2-Adapter 取得与 SAM-Adapter 相当的竞争性结果,体现了对 SAM2 骨干的有效提示。
- 在息肉分割(kvasir-SEG)中,SAM2-Adapter 优于 SAM-Adapter,表明对医疗分割任务的更好适应。
- 消融研究显示,多适配器配置(四个阶段特定适配器)和 SAM2 骨干两者均对相对于单一适配器或仅使用 SAM2 的设置的改进有贡献。
- 表级结果表明,在隐蔽对象检测任务上,SAM2-Adapter 超越了 SAM、SAM2 和 SAM-Adapter 的多项指标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。