Skip to main content
QUICK REVIEW

[论文解读] SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video

Guanyi Qin, Xiaozhen Wang|arXiv (Cornell University)|Feb 25, 2026
Surgical Simulation and Training被引用 0
一句话总结

SurGo-R1 引入 ResGo,这是一个多模态的胆囊切除基准和阶段-再去推理模型,使用 GRPO 进行优化,在 held-out 手术中实现了阶段识别与 Go Zone 定位的改进,相较于通用模型表现更好。

ABSTRACT

Minimally invasive surgery has dramatically improved patient operative outcomes, yet identifying safe operative zones remains challenging in critical phases, requiring surgeons to integrate visual cues, procedural phase, and anatomical context under high cognitive load. Existing AI systems offer binary safety verification or static detection, ignoring the phase-dependent nature of intraoperative reasoning. We introduce ResGo, a benchmark of laparoscopic frames annotated with Go Zone bounding boxes and clinician-authored rationales covering phase, exposure quality reasoning, next action and risk reminder. We introduce evaluation metrics that treat correct grounding under incorrect phase as failures, revealing that most vision-language models cannot handle such tasks and perform poorly. We then present SurGo-R1, a model optimized via RLHF with a multi-turn phase-then-go architecture where the model first identifies the surgical phase, then generates reasoning and Go Zone coordinates conditioned on that context. On unseen procedures, SurGo-R1 achieves 76.6% phase accuracy, 32.7 mIoU, and 54.8% hardcore accuracy, a 6.6$ imes$ improvement over the mainstream generalist VLMs. Code, model and benchmark will be available at https://github.com/jinlab-imvr/SurGo-R1

研究动机与目标

  • 通过将 Go Zone 定位与阶段上下文及临床判断一致性,推动 MIS 的安全术中引导。
  • 创建 ResGo,一个将 Go Zone 定位与阶段相关的安全性推理结合的基准。
  • 开发 SurGo-R1,一个通过 GRPO 优化、可解释的外科引导的阶段-再去推理模型。
  • 证明阶段条件化定位提升对未见手术的泛化能力。

提出的方法

  • 引入 ResGo,这是一个野外多模态胆囊切除数据集,包含 Go Zone 边界框、文本阶段描述、暴露推理以及下一步/风险规划标注。
  • 提出一个阶段-再去基准,其中 Go Zone 的定位受正确识别的手术阶段条件约束。
  • 提出 SurGo-R1,这是一个经过 GRPO 优化的视觉-语言模型,首先识别阶段(阶段选择题 MCQ),随后进行推理并在阶段定义条件下定位 Go Zone。
  • 使用阶段定义映射工具在推理过程中注入阶段特定约束,以提高定位的一致性。
  • 使用人类反馈强化学习(GRPO)进行训练,综合奖励包括阶段准确性、推理语义实体匹配、IoU 与中心距离定位信号,以及格式化奖励。
  • 采用两阶段训练流程:阶段1 以 MCQ 奖励进行阶段识别;阶段2 进行多轮推理,使用完整的 GRPO 奖励。

实验结果

研究问题

  • RQ1阶段感知的定位是否能提升腹腔镜胆囊切除术视频中的 Go Zone 定位与安全推理?
  • RQ2阶段-再去架构相较端到端静态定位是否对未见手术具有更好的泛化性?
  • RQ3显式阶段定义指导与推理奖励对定位准确性和临床实用性有何影响?
  • RQ4ResGo 如何支持可解释的、具有情境感知的术中引导?

主要发现

PhaseGroundingConditionedHardcoreAccAcc@0.25mA@0.25:0.5Delta_cenmIoUCA0.25CA0.25:0.5C Delta_cenCmIoUHA0.25HmIoU
SurGo-R176.668.339.74.1132.771.540.93.6333.854.825.9N/AN/AN/A
  • SurGo-R1 在 held-out 手术上的阶段准确率达到 76.6%。
  • SurGo-R1 在阶段条件下的 Go Zone 定位 IoU 为 32.7。
  • SurGo-R1 在评估指标上相比主流通用 VLMs 高出约 6.6×。
  • 引入阶段定义映射与推理奖励可提升定位与 Hardcore 精度。
  • 多轮推理(阶段-再去)在所有评估指标上优于单轮定位。
  • 临床推理与有据可查的 Go Zone 更具信息性,且在外科医生评审中更受青睐。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。