[논문 리뷰] SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video
SurGo-R1은 ResGo라는 다중모달 담낭절제 벤치마크를 도입하고, GRPO로 최적화된.phase-then-go 추론 모델을 통해 보유되지 않은 수술 절차에 대해 일반화된 단계 인식 및 Go Zone 확립 성능을 향상시킵니다.
Minimally invasive surgery has dramatically improved patient operative outcomes, yet identifying safe operative zones remains challenging in critical phases, requiring surgeons to integrate visual cues, procedural phase, and anatomical context under high cognitive load. Existing AI systems offer binary safety verification or static detection, ignoring the phase-dependent nature of intraoperative reasoning. We introduce ResGo, a benchmark of laparoscopic frames annotated with Go Zone bounding boxes and clinician-authored rationales covering phase, exposure quality reasoning, next action and risk reminder. We introduce evaluation metrics that treat correct grounding under incorrect phase as failures, revealing that most vision-language models cannot handle such tasks and perform poorly. We then present SurGo-R1, a model optimized via RLHF with a multi-turn phase-then-go architecture where the model first identifies the surgical phase, then generates reasoning and Go Zone coordinates conditioned on that context. On unseen procedures, SurGo-R1 achieves 76.6% phase accuracy, 32.7 mIoU, and 54.8% hardcore accuracy, a 6.6$ imes$ improvement over the mainstream generalist VLMs. Code, model and benchmark will be available at https://github.com/jinlab-imvr/SurGo-R1
연구 동기 및 목표
- MIS 중 안전한 수술 내 관 guidance를 목표로 Go Zone 확립을 단계 맥락 및 임상의 합리화와 정렬합니다.
- Go Zone 로컬화와 단계 의존적 안전 합리화를 페어링하는 벤치마크 ResGo를 생성합니다.
- 해석 가능한 외과 안내를 위해 GRPO로 최적화된 phase-then-go 추론 모델 SurGo-R1을 개발합니다.
- 단계 조건부 공간 확립이 미확인 절차에 대한 일반화를 향상시키는지 입증합니다.
제안 방법
- Go Zone 경계 상자, 텍스트 단계 설명, 노출 추론, 다음 단계/위험 계획 주석을 포함한 현장 다중모달 담낭절제 데이터셋 ResGo를 도입합니다.
- Go Zone 확립이 정확히 식별된 수술 단계에서 조건화되는 phase-then-go 벤치마크를 형성합니다.
- 먼저 단계(phase MCQ)를 식별한 다음, 단계 정의에 따라 추론하고 Go Zone을 근거화하도록 GRPO 최적화 비전-언어 모델 SurGo-R1을 제안합니다.
- 추론 중에 단계별 제약을 주입하는 단계 정의 매핑 도구를 도입하여 확립 일관성을 개선합니다.
- 합성 보상으로 구성된 인간 피드백 강화학습(GRPO)으로 학습합니다: 단계 정확도, 추론 의미 엔티티 매칭, IoU 및 중앙거리 확립 신호, 포맷 보상.
- 2단계 학습 파이프라인을 채택합니다: 1단계는 MCQ 보상으로 단계 인식; 2단계는 전체 GRPO 보상으로 다턴 추론.
실험 결과
연구 질문
- RQ1단계 인식이 있는 확립이 담낭절제 영상에서 Go Zone 위치 확립 및 안전 추론을 개선할 수 있습니까?
- RQ2phase-then-go 아키텍처가 엔드-투-엔드 고정 확립보다 보지 못한 절차에 더 잘 일반화합니까?
- RQ3명시적 단계 정의 지침 및 추론 보상이 확립 정확도와 임상적 유용성에 어느 정도 영향을 미칩니까?
- RQ4ResGo가 수술 중 맥락 인식 가능하고 설명 가능한 안내를 얼마나 잘 지원합니까?
주요 결과
| Phase | Grounding | Conditioned | Hardcore | Acc | Acc@0.25 | mA@0.25:0.5 | Delta_cen | mIoU | CA0.25 | CA0.25:0.5 | C Delta_cen | CmIoU | HA0.25 | HmIoU |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SurGo-R1 | 76.6 | 68.3 | 39.7 | 4.11 | 32.7 | 71.5 | 40.9 | 3.63 | 33.8 | 54.8 | 25.9 | N/A | N/A | N/A |
- SurGo-R1은 보유된 절차에서 76.6%의 단계 정확도를 달성합니다.
- SurGo-R1은 단계 조건부 평가에서 Go Zone 확립에 대해 32.7 mIoU를 달성합니다.
- SurGo-R1은 평가된 지표에서 일반적 대형 VLM보다 약 6.6배 우수합니다.
- 단계 정의 매핑 및 추론 보상을 도입하면 확립 및 확정 정확도가 향상됩니다.
- 다턴 추론(phase-then-go)은 평가된 지표 전반에서 단일 턴 확립보다 우수합니다.
- 임상 합리화 및 근거화된 Go Zones은 외과 의사 평가에서 더 정보적이고 선호됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.