QUICK REVIEW

[论文解读] AI-SAM: Automatic and Interactive Segment Anything Model

Yimu Pan, Sitao Zhang|arXiv (Cornell University)|Dec 5, 2023

Visual Attention and Saliency Detection被引用 7

一句话总结

AI-SAM 融合自动与交互分割，通过引入 AI-Prompter 自动生成点提示，同时保留用户输入以 refine 掩模，在自动与交互任务上达到 SOTA 性能。

ABSTRACT

Semantic segmentation is a core task in computer vision. Existing methods are generally divided into two categories: automatic and interactive. Interactive approaches, exemplified by the Segment Anything Model (SAM), have shown promise as pre-trained models. However, current adaptation strategies for these models tend to lean towards either automatic or interactive approaches. Interactive methods depend on prompts user input to operate, while automatic ones bypass the interactive promptability entirely. Addressing these limitations, we introduce a novel paradigm and its first model: the Automatic and Interactive Segment Anything Model (AI-SAM). In this paradigm, we conduct a comprehensive analysis of prompt quality and introduce the pioneering Automatic and Interactive Prompter (AI-Prompter) that automatically generates initial point prompts while accepting additional user inputs. Our experimental results demonstrate AI-SAM's effectiveness in the automatic setting, achieving state-of-the-art performance. Significantly, it offers the flexibility to incorporate additional user prompts, thereby further enhancing its performance. The project page is available at https://github.com/ymp5078/AI-SAM.

研究动机与目标

提出一个统一的自动与交互分割范式，在保持提示能力的同时实现自动分割性能。
分析提示质量并建立一个评估语义分割提示的框架。
开发 AI-Prompter，通过专门的损失函数引导，自动生成鲁棒的点提示以实现准确的目标定位。
实现端到端训练，将自动提示生成与基于 SAM 的交互分割模型集成。
在医学与通用分割任务上展示最先进的结果，并与现有基于 SAM 的适配方法兼容。

提出的方法

提出 AI-SAM：包含用于自动点提示生成的 AI-Prompter 和基于 SAM 的分割骨干网络。
使用广义点表示 P_g = W^T P 来编码提示，具备一个可微分的管线将 P_g 输入到提示编码器。
用提示启发式损失 L_ph 来训练 AI-Prompter，该损失将点正确性损失 L_pc、点清晰度损失 L_ps 与提示多样性损失 L_pd 结合。
利用两路式 transformer 风格架构，在 AI-Prompter 中的卷积模块依据图像特征和类别 c 生成点提示。
在推理阶段，AI-SAM 自动生成提示和掩模，同时允许用户进行调整，如添加额外的点或边界框。
在医学与伪装/阴影分割基线数据集上评估 AI-SAM，以展示自动与交互的改进效果。

实验结果

研究问题

RQ1模型如何在不牺牲性能或提示能力的前提下，顺畅地将自动与交互分割能力结合？
RQ2对自动与交互分割而言，有效的提示应具备哪些要素，如何进行定量分析？
RQ3自动提示生成（AI-Prompter）是否能够生成高质量、可修改的点提示，在与 SAM 结合时提升分割效果？
RQ4将自动提示生成与基于 SAM 的适配方法结合，是否能在不同数据集与模态上实现最先进的结果？

主要发现

AI-SAM 在 Synapse 与 ACDC 数据集的自动分割上达到最先进的性能。
在交互场景中，AI-SAM 使用类别标签或真实框提示时，在评估方法中达到最佳性能。
AI-Prompter 提升了基于 SAM 的适配方法（如 SAM-Adapter）在伪装与阴影检测任务上的性能。
通过提示混淆矩阵 (PCM) 和输出混淆矩阵 (OCM) 的提示质量分析，支持优先考虑高语义相似性（TSS）且低错误相似性（FSS）。
泛化的点表示使提示具有可微分、可适应性，并可通过点正确性、点清晰度和多样性损失进行调优。
该框架在保留 SAM 的提示能力的同时，提供自动分割能力与强大的用户引导修正。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。