QUICK REVIEW

[論文レビュー] Skill-Evolving Grounded Reasoning for Free-Text Promptable 3D Medical Image Segmentation

Tongrui Zhang, Chenhui Wang|arXiv (Cornell University)|Mar 9, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

SEERは、動的なSEER-LoopとSEER-Traceデータセットを備えた Grounded, Skill-based Reasoning フレームワークを導入し、自由テキストプロンプト可能な3D医用画像セグメンテーションの安定性を高め、言語的変動に対するロバスト性を向上させ、性能のばらつきを低減します。

ABSTRACT

Free-text promptable 3D medical image segmentation offers an intuitive and clinically flexible interaction paradigm. However, current methods are highly sensitive to linguistic variability: minor changes in phrasing can cause substantial performance degradation despite identical clinical intent. Existing approaches attempt to improve robustness through stronger vision-language fusion or larger vocabularies, yet they lack mechanisms to consistently align ambiguous free-form expressions with anatomically grounded representations. We propose Skill-Evolving grounded Reasoning (SEER), a novel framework for free-text promptable 3D medical image segmentation that explicitly bridges linguistic variability and anatomical precision through a reasoning-driven design. First, we curate the SEER-Trace dataset, which pairs raw clinical requests with image-grounded, skill-tagged reasoning traces, establishing a reproducible benchmark. Second, SEER constructs an evidence-aligned target representation via a vision-language reasoning chain that verifies clinical intent against image-derived anatomical evidence, thereby enforcing semantic consistency before voxel-level decoding. Third, we introduce SEER-Loop, a dynamic skill-evolving strategy that distills high-reward reasoning trajectories into reusable skill artifacts and progressively integrates them into subsequent inference, enabling structured self-refinement and improved robustness to diverse linguistic expressions. Extensive experiments demonstrate superior performance of SEER over state-of-the-art baselines. Under linguistic perturbations, SEER reduces performance variance by 81.94% and improves worst-case Dice by 18.60%.

研究の動機と目的

自由テキストプロンプトによる3D医用セグメンテーションの言語変動による不安定性を解消する。
SEER-Traceを編纂し、臨床的リクエストと画像根拠付き、技能タグ付け推論のトレースを結びつける。
解釈可能な視覚–言語推論を解釈可能な解法スキルに正式化し、解剖学的根拠に整合させる。
SEER-Loopを導入して高報酬推論を再利用可能なスキルへ蒸留し、継続的な自己改善を可能にする。

提案手法

SEER-Traceを、標準の3Dセグメンテーションベンチマークと多様な臨床リクエスト、技能タグ付けトレースを集約して作成する。
証拠 e、推論 r、実行可能な回答 a を出力する視覚–言語推論連鎖を実装し、それを凍結されたセグメンテーションシステム S が Ĝ を生成するのに使用する。
臨床的に等価な言い換えを横断する安定性を考慮した目的関数を最適化して、精度と一貫性の両方を改善する： J(θ)=E[(Eq′~Ω(q)) Dice(S(V,aθ(V,q′)),G) − λ Var(Dice(...))]。
VLMをSEER-Trace操作へ整合させるために、教師付き微調整で事前学習を行い、次に複合報酬を用いたグループ相対方策最適化（GRPO）を行う。
SEER-Bankを介してSEER-Loopを導入し、高報酬推論アーティファクトを保存・取得・蒸留して、継続的な技能の進化と未知の言語変動への堅牢性を実現する。

実験結果

リサーチクエスチョン

RQ1自由テキストの臨床リクエストを解剖学的根拠へ grounding して一貫したセグメンテーション結果を生成するにはどうすればよいか？
RQ2明示的で実行可能な技能ベースの推論は、3D医用画像セグメンテーションにおける言語変動へのロバスト性を向上させるか？
RQ3動的な技能進化メモリ（SEER-Bank）は、未知のプロンプトに対して推論品質とセグメンテーションのロバスト性を継続的に高めることができるか？
RQ4異なるセグメンテーションバックボーン間で推論根拠の grounding と技能の進化はどの程度転移するか？
RQ5自由テキストプロンプティングのロバスト性が Dice、最悪Dice、言語的撹乱下の結果の分散に与える影響はどれくらいか？

主な発見

Dataset	Method	Label Prompting Dice↑	Free-text Prompting Dice↑	Worst Dice↑	Std.↓
BrainMet-Share	SAT [23]	22.16	0.69	0.00	2.53
BiomedParseV2 [22]	—	18.66	2.53	0.00	7.27
Text3DSAM [19]	—	0.10	0.41	0.00	0.93
MedSAM3 [9]	—	11.33	16.62	10.56	5.17
VoxTell [16]	—	48.19	52.15	46.71	3.35
SEER (Ours)	—	51.70	53.83	51.44	1.67

SEERは、ラベルプロンプトと自由テキストプロンプトの両方のモードで、ベースラインを上回るセグメンテーション性能を達成する。
自由テキストプロンプティングの下では、SEERは性能のばらつきを81.94%低減し、最悪時のDiceを18.60%改善する（要約の報告）。
PENGWIN strictly out-of-distributionデータセットで、SEER-LoopとSEER-Bankは平均Diceが最高（97.39）、Stdが最も低（0.98）。
PENGWINでのアブレーションでは、素のVLMは性能を低下させる一方、 grounded reasoning の微調整は Diceを95.92に向上させ、Stdを3.84に低減し、SEER-Loopの効果でDiceを97.39、Stdを0.98へさらなる向上を得る。
MedSAM3を用いたバックボーン横断一般化では、SEERはSEER推論なしのベースラインと比較して平均性能を大幅に向上させ、分散を低下させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。