[论文解读] StAR: Segment Anything Reasoner
StAR 通过视觉推理改进强化学习以提升从隐式查询得到的分割,推出 ReasonSeg-X/R 基准并实现测试时扩展以提升性能.
As AI systems are being integrated more rapidly into diverse and complex real-world environments, the ability to perform holistic reasoning over an implicit query and an image to localize a target is becoming increasingly important. However, recent reasoning segmentation methods fail to sufficiently elicit the visual reasoning capabilities of the base mode. In this work, we present Segment Anything Reasoner (StAR), a comprehensive framework that refines the design space from multiple perspectives-including parameter-tuning scheme, reward functions, learning strategies and answer format-and achieves substantial improvements over recent baselines. In addition, for the first time, we successfully introduce parallel test-time scaling to the segmentation task, pushing the performance boundary even further. To extend the scope and depth of reasoning covered by existing benchmark, we also construct the ReasonSeg-X, which compactly defines reasoning types and includes samples that require deeper reasoning. Leveraging this dataset, we train StAR with a rollout-expanded selective-tuning approach to activate the base model's latent reasoning capabilities, and establish a rigorous benchmark for systematic, fine-grained evaluation of advanced methods. With only 5k training samples, StAR achieves significant gains over its base counterparts across extensive benchmarks, demonstrating that our method effectively brings dormant reasoning competence to the surface.
研究动机与目标
- 解决用于推理分割的带可验证奖励的强化学习瓶颈(RLVR).
- 在保持基础 MLLM 能力的同时提升视觉推理以用于分割任务。
- 引入 ReasonSeg-X/R 基准以评估多样的推理类型与深度。
- 开发训练与测试时策略(REST、掩码级投票、LP)以在有限数据下最大化推理性能。)
提出的方法
- 采用解耦的推理—分割管线,其中 MLLM 生成思考链并预测边界框与点,SAM 使用其来生成掩码。
- 以 Group Relative Policy Optimization(GRPO)作为核心 RLVR 算法,使用小批量回合与按组的优势归一化。
- 实现多方面的奖励设计,包括 SAM 级掩码 IoU 奖励与 MLLM 级正确性奖励,以及用于分配的批量化匈牙利匹配。
- 使用参数高效微调(LoRA)并调整学习率,以在提升推理的同时保留基础模型知识。
- 引入 Rollout-Expanded Selective-Tuning(REST),在 Stage-2 训练中通过选择极端优势来增加探索。
- 新增 Label Prediction(LP),要求语义标签与几何信息并用以改善定位与可信度。
- 开发掩码级多数投票(MV)策略,通过 IoU 聚类与聚类投票对多并行样本的掩码进行聚类并筛选最终掩码。
- 将 ReasonSeg-X 构建为四类、具深度扩展的推理基准,将 ReasonSeg-R 作为 ReasonSeg 的改进版本以确保掩码-查询的对应性与边界精度。)
实验结果
研究问题
- RQ1如何识别并缓解 RLVR 的瓶颈,以充分触发基础模型的潜在视觉推理能力?
- RQ2哪种参数调优、奖励设计、学习策略以及答案形式的组合能在隐式查询中得到最佳分割性能?
- RQ3测试时并行采样的扩展是否能提升复杂推理任务的分割精度?
- RQ4ReasonSeg-X/R 是否能为分割方法提供对推理深度与类型的全面评估?
- RQ5简单语义标注(LP)对分割结果的定位与可信度有何影响?
主要发现
- StAR 在 Stage-2 训练后超越了基础 VisionReasoner 与多数基线在 ReasonSeg-X/R 的表现。
- Stage-1 的 StAR 利用基础模型的推理能力,在不使用推理数据的情况下超过使用同一基础模型的其他方法。
- REST(Rollout-Expanded Selective-Tuning)提升 Stage-2 训练效率并改善在复杂推理任务上的性能。
- 掩码级多数投票通过对并行响应的聚合显著提升最终分割质量。
- 在 ReasonSeg-X 上,StAR 配合更大基础模型与测试时投票方法,接近或达到更大规模模型(如 SAM 3 Agent with 72B)的性能。
- 在多模态检索(MMR)任务上,StAR 展现强劲的零-shot 性能,超越 VisionReasoner 及在 MMR 上训练的模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。