[論文レビュー] Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery
外科領域向けの大規模 Vision-Language モデルを Visual Perception LoRA と Token-Interaction モジュールで個別化し、外科 VQA の grounding と推論を改善。EndoVis データセットで最先端の結果を達成。
Recent advancements in Surgical Visual Question Answering (Surgical-VQA) and related region grounding have shown great promise for robotic and medical applications, addressing the critical need for automated methods in personalized surgical mentorship. However, existing models primarily provide simple structured answers and struggle with complex scenarios due to their limited capability in recognizing long-range dependencies and aligning multimodal information. In this paper, we introduce Surgical-LVLM, a novel personalized large vision-language model tailored for complex surgical scenarios. Leveraging the pre-trained large vision-language model and specialized Visual Perception LoRA (VP-LoRA) blocks, our model excels in understanding complex visual-language tasks within surgical contexts. In addressing the visual grounding task, we propose the Token-Interaction (TIT) module, which strengthens the interaction between the grounding module and the language responses of the Large Visual Language Model (LVLM) after projecting them into the latent space. We demonstrate the effectiveness of Surgical-LVLM on several benchmarks, including EndoVis-17-VQLA, EndoVis-18-VQLA, and a newly introduced EndoVis Conversations dataset, which sets new performance standards. Our work contributes to advancing the field of automated surgical mentorship by providing a context-aware solution.
研究の動機と目的
- 外科 VQA および VQLA タスクにおけるドメイン特化の grounding の必要性を動機づける。
- 複雑な外科シナリオに対応する個別化 LVLM として Surgical-LVLM を提案する。
- 長距離の文脈理解を可能にする Visual Perception LoRA (VP-LoRA) を導入する。
- 言語応答を視覚 grounding に合わせるトークン相互作用モジュール(TIT)を開発する。
- EndoVis-17/18 VQLA データセットおよび新しい EndoVis Conversations データセットでアプローチを検証する。
提案手法
- グローバル文脈を伝搬させるために LoRA 層に Visual State Space (VSS) を挿入する VP-LoRA ブロックを用いて Qwen-VL をファインチューニングする。
- TIT モジュールを介して CAT-ViL grounding と Qwen-VL の言語出力を融合するための射影ベースの多モーダル整列を導入する。
- 2 段階のトレーニングを用いる: (i) 外科 QA ペアに対する vision-language 指示ファインチューニング、(ii) 言語と grounding モジュール間の多モーダル grounding 整列。
- Qwen-VL フォーマットに従い GPT-4 で生成した EndoVis ベースの instruction-tuning データセットを構築する。
- grounding のために CAT-ViL の共注意埋め込みを活用し、重要な視覚-言語トークンを強調するトークン相互作用経路を統合する。
実験結果
リサーチクエスチョン
- RQ1個別化 LVLM をロボット手術における grounding VQA の実行に効果的に適応させることができるか?
- RQ2VP-LoRA ブロックは手術文脈での長距離視覚言語理解を改善するか?
- RQ3指示チューニングと多モーダル grounding 整列は EndoVis タスクで最先端の grounding と推論をもたらすか?
- RQ4Surgical-LVLM は EndoVis-17/18 VQLA および新しい EndoVis Conversations データセットでどのように性能を示すか?
- RQ5VP-LoRA と多モーダル整列のアブレーションが全体の性能に与える影響は何か?
主な発見
| モデル | EndoVis-18-VQLA 正解率 | EndoVis-18-VQLA Fスコア | EndoVis-18-VQLA mIoU | EndoVis-17-VQLA 正解率 | EndoVis-17-VQLA Fスコア | EndoVis-17-VQLA mIoU |
|---|---|---|---|---|---|---|
| Surgical-LVLM (Ours) | 0.6947 | 0.3325 | 0.8416 | 0.4068 | 0.3412 | 0.7825 |
- VP-LoRA と指示チューニングを組み込んだ Surgical-LVLM は EndoVis Conversations データセットで EndoVis-18-VQLA および EndoVis-17-VQLA の比較において GPT-4 風スコアが最高を達成(例: それぞれ 90.68 と 83.24)。
- 指示ファインチューニングは外科領域における論理的推論と応答を大幅に向上させる。
- VP-LoRA は一貫して言語応答品質と grounding 性能を向上させる。
- Multimodal alignment (MA) と VP-LoRA の組み合わせは全体的な grounding 結果を最も良くし、組み合わせ時に相乗効果が得られる。
- EndoVis-18-VQLA では Acc 0.6947, F-Score 0.3325, mIoU 0.8416 を達成。EndoVis-17-VQLA では Acc 0.4068, F-Score 0.3412, mIoU 0.7825。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。