[论文解读] SAMAug: Point Prompt Augmentation for Segment Anything Model
SAMAug 自动通过从初始 SAM 输出中采样额外提示来增强 SAM 的点提示,在多个数据集上提高分割效果且无需额外人工输入。
This paper introduces SAMAug, a novel visual point augmentation method for the Segment Anything Model (SAM) that enhances interactive image segmentation performance. SAMAug generates augmented point prompts to provide more information about the user's intention to SAM. Starting with an initial point prompt, SAM produces an initial mask, which is then fed into our proposed SAMAug to generate augmented point prompts. By incorporating these extra points, SAM can generate augmented segmentation masks based on both the augmented point prompts and the initial prompt, resulting in improved segmentation performance. We conducted evaluations using four different point augmentation strategies: random sampling, sampling based on maximum difference entropy, maximum distance, and saliency. Experiment results on the COCO, Fundus, COVID QUEx, and ISIC2018 datasets show that SAMAug can boost SAM's segmentation results, especially using the maximum distance and saliency. SAMAug demonstrates the potential of visual prompt augmentation for computer vision. Codes of SAMAug are available at github.com/yhydhx/SAMAug
研究动机与目标
- 通过提升 augmented prompts 来解决提示歧义,从而推动 SAM 的分割改进。
- 提出一个可视化点增强框架,从初始 SAM 结果生成额外提示。
- 在多样化数据集(通用与医疗)上评估四种增强策略和框选框(box)变体。
- 证明提示增强在不重新训练或不修改数据的情况下可提升 SAM 的性能。
提出的方法
- 将 SAMAug 定义为一个管道,接收初始 SAM 分割并从该结果中采样增强的点提示。
- 实现四种采样策略:随机、最大差异熵、最大距离、基于显著性。
- 可选地探索来自 GT 或初始结果的内/外框提示以评估基于框的增强。
- 在 COCO、Fundus、COVID QU-Ex、ISIC2018 数据集上评估增强对 SAM 的影响。
- 提供实现细节并报告 Dice 得分增益。
- 讨论提示选择的不变性以及在主动学习中的潜在整合。

实验结果
研究问题
- RQ1自动可视化点增广是否能在不额外用户输入或模型重新训练的情况下改进 SAM 分割?
- RQ2哪些点提示增广策略(随机、最大熵、最大距离、显著性)在不同领域最有效地提升 SAM 性能?
- RQ3框基提示与点提示在增强 SAM 性能上对比如何,在不同数据集上表现是否不同?
- RQ4SAMAug 的局限性及数据集特异性效应是什么,主动学习如何进一步提升提示增广?
主要发现
- SAMAug 在多个数据集上提升了 SAM 的性能,在使用增强提示的情况下,COCO 的 Dice 获得约 0.01–0.05 的增益。
- 在 Fundus 上,SAMAug 约提升 0.03–0.04 的 Dice,且最大距离策略通常表现最佳。
- 在 COVID QU-Ex 上,增强提示相较初始 SAM 结果 Dice 提升约 0.01。
- 在 ISIC2018 上,SAMAug 将 Dice 提升至 0.02–0.07 之间,其中显著性有时提供最大增益。
- 当外部 GT 框可用时,框提示通常优于点提示,获得更高的 Dice 分数(如 COCO 0.89、Fundus 0.904)相比点基增强。
- 基于地面实况的增强(GT 随机/最大熵/最大距离)显示两提示设置的潜在上限。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。