[论文解读] Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset
介绍 USIS10K,一个大规模的水下显著实例分割数据集,以及 USIS-SAM,一个基于 SAM 的模型,具备水下自适应 ViT 编码器和用于端到端水下显著实例分割的显著特征提示生成器。
With the breakthrough of large models, Segment Anything Model (SAM) and its extensions have been attempted to apply in diverse tasks of computer vision. Underwater salient instance segmentation is a foundational and vital step for various underwater vision tasks, which often suffer from low segmentation accuracy due to the complex underwater circumstances and the adaptive ability of models. Moreover, the lack of large-scale datasets with pixel-level salient instance annotations has impeded the development of machine learning techniques in this field. To address these issues, we construct the first large-scale underwater salient instance segmentation dataset (USIS10K), which contains 10,632 underwater images with pixel-level annotations in 7 categories from various underwater scenes. Then, we propose an Underwater Salient Instance Segmentation architecture based on Segment Anything Model (USIS-SAM) specifically for the underwater domain. We devise an Underwater Adaptive Visual Transformer (UA-ViT) encoder to incorporate underwater domain visual prompts into the segmentation network. We further design an out-of-the-box underwater Salient Feature Prompter Generator (SFPG) to automatically generate salient prompters instead of explicitly providing foreground points or boxes as prompts in SAM. Comprehensive experimental results show that our USIS-SAM method can achieve superior performance on USIS10K datasets compared to the state-of-the-art methods. Datasets and codes are released on https://github.com/LiamLian0727/USIS10K.
研究动机与目标
- 建立一个具有像素级注释的跨多类的大规模水下显著实例分割数据集。
- 将 Segment Anything Model 适配到水下领域,以提高在具有挑战性的海洋环境中的分割准确性。
- 开发自动显著性提示,以实现端到端的 SAM 分割,无需人工提示。
- 展示所提出的 USIS-SAM 在 USIS10K 上的有效性和泛化,并与最先进的方法进行比较。
提出的方法
- 创建 USIS10K:10,632 张水下图像,具有跨 7 个类别的像素级掩模;注释包括类别标签、掩模和边界框。
- 提出 USIS-SAM:针对水下场景量身定制的基于 SAM 的架构。
- 引入 UA-ViT:一对适配器(图像注意力和通道),通过 PEFT 微调 SAM 编码器块以注入水下领域知识。
- 开发 SFPG:一个显著特征提示生成器,将多尺度 UA-ViT 特征融合以为 SAM 生成提示,且无需人工输入。
- 结合多尺度特征融合(SFFM)和多尺度反卷积以使显著性线索与 SAM 解码器对齐。
- 用一个损失函数进行优化,结合 RPN 定位、分类、回归和分割损失,遵循 Mask RCNN 启发式目标。
实验结果
研究问题
- RQ1是否可以构建一个具有跨多类别像素级注释的大规模水下 SIS 数据集(USIS10K)?
- RQ2当 SAM 通过水下特定适配器和自动显著性提示器进行增强时,是否在水下 SIS 上表现更优?
- RQ3水下域自适应(UA-ViT 和 SFPG)如何影响水下场景的分割准确性和鲁棒性?
- RQ4所提出的 USIS-SAM 能否泛化到陆地 SIS 数据集(如 SIS10K),而不过拟合 USIS10K?
主要发现
- USIS-SAM 在 USIS10K 上相对于最先进方法在无类别偏好和多类别显著实例分割方面都取得了优越的性能。
- 消融实验显示 UA-ViT 将 AP 提升 1.6 点,且 SFPG 相对于替代方案带来明显收益。
- USIS10K 是首个拥有 7 类、共 10,632 张图像的大规模水下 SIS 数据集,且包含无类别偏好和多类别标签。
- 在 SIS10K 上,USIS-SAM 实现了具有竞争力的泛化能力,表明提示学习方法能迁移到陆地数据集,尽管 AP75 略有不同。
- 定性结果表明在使用 USIS-SAM 时,水下场景中的显著掩模更准确、完整。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。