[論文レビュー] SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video
SurGo-R1はResGoベンチマークとGRPO最適化のSurGo-R1を提示。 held-out proceduresにおけるフェーズ認識とGo Zone groundingを、一般的なモデルより改善。
Minimally invasive surgery has dramatically improved patient operative outcomes, yet identifying safe operative zones remains challenging in critical phases, requiring surgeons to integrate visual cues, procedural phase, and anatomical context under high cognitive load. Existing AI systems offer binary safety verification or static detection, ignoring the phase-dependent nature of intraoperative reasoning. We introduce ResGo, a benchmark of laparoscopic frames annotated with Go Zone bounding boxes and clinician-authored rationales covering phase, exposure quality reasoning, next action and risk reminder. We introduce evaluation metrics that treat correct grounding under incorrect phase as failures, revealing that most vision-language models cannot handle such tasks and perform poorly. We then present SurGo-R1, a model optimized via RLHF with a multi-turn phase-then-go architecture where the model first identifies the surgical phase, then generates reasoning and Go Zone coordinates conditioned on that context. On unseen procedures, SurGo-R1 achieves 76.6% phase accuracy, 32.7 mIoU, and 54.8% hardcore accuracy, a 6.6$ imes$ improvement over the mainstream generalist VLMs. Code, model and benchmark will be available at https://github.com/jinlab-imvr/SurGo-R1
研究の動機と目的
- MISの安全な術中支援を推進するためにGo Zone groundingをフェーズコンテキストと臨床医の合理的推論に合わせる。
- Go Zoneのローカライズとフェーズ依存の安全な推論を組み合わせたResGoベンチマークを作成する。
- 解釈可能な外科的支援のためにGRPOで最適化されたphase-then-go推論モデル SurGo-R1を開発する。
- フェーズ条件付きの grounding が unseen procedures への一般化を改善することを示す。
提案手法
- ResGoを導入する。Go Zoneの境界ボックス、テキストのフェーズ記述、露出推論、次のステップ/リスク計画の注釈を備えた野外マルチモーダル胆嚢摘出データセット。
- Go Zone groundingが正しく識別されたフェーズに条件付けられるフェーズ→Goのベンチマークを定式化する。
- SurGo-R1を提案する。GRPO最適化のビジョンと言語モデルで、まずフェーズを識別(フェーズMCQ)、次に推論してフェーズ定義に基づいてGo Zoneを grounding する。
- 推論中にフェーズ定義マッピングツールを使用してフェーズ固有の制約を注入し grounding の一貫性を改善する。
- 報酬の組合せを用いた人間のフィードバックからの強化学習(GRPO)で訓練する。報酬にはフェーズ精度、推論の意味的エンティティ一致、IoUと中心距離 grounding 信号、フォーマット報酬を含む。
- 二段階の訓練パイプラインを採用する。Stage 1はフェーズ認識とMCQ報酬、Stage 2は全GRPO報酬を用いたマルチターン推論。
実験結果
リサーチクエスチョン
- RQ1フェーズ意識の groundingは腹腔鏡下胆嚢摘出動画におけるGo Zoneのローカライズと安全推論を改善するか?
- RQ2フェーズ→Go アーキテクチャは unseen proceduresへエンドツーエンドの静的 groundingより一般化が良いか?
- RQ3明示的なフェーズ定義ガイダンスと推論報酬が grounding の精度と臨床的有用性にどのような影響を与えるか?
- RQ4ResGoは explainableで文脈認識型の術中支援をどれだけサポートできるか?
主な発見
| Phase | Grounding | Conditioned | Hardcore | Acc | Acc@0.25 | mA@0.25:0.5 | Delta_cen | mIoU | CA0.25 | CA0.25:0.5 | C Delta_cen | CmIoU | HA0.25 | HmIoU |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SurGo-R1 | 76.6 | 68.3 | 39.7 | 4.11 | 32.7 | 71.5 | 40.9 | 3.63 | 33.8 | 54.8 | 25.9 | N/A | N/A | N/A |
- SurGo-R1はheld-out proceduresでフェーズ精度76.6%を達成。
- SurGo-R1はフェーズ条件付き評価でGo Zone groundingのmIoUが32.7を達成。
- SurGo-R1は評価指標で主流の一般ist VLMより約6.6倍上回る。
- フェーズ定義マッピングと推論報酬を組み込むとgroundingと hardcore 精度が向上。
- マルチターン推論(phase-then-go)は評価指標全般で単一ターン grounding を上回る。
- 臨床的な合理性と grounding Go Zoneが、外科医の批評でより有益かつ好まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。