QUICK REVIEW

[論文レビュー] Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering

Lin Fan, Yafei Ou|arXiv (Cornell University)|Mar 14, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

Step-CoTは、医療VQAのための構造化された多段階視覚推論データセットと、臨床ワークフローに整合した検証可能な逐次診断推論を学ぶ教師-生徒フレームワークを導入する。

ABSTRACT

Chain-of-thought (CoT) reasoning has advanced medical visual question answering (VQA), yet most existing CoT rationales are free-form and fail to capture the structured reasoning process clinicians actually follow. This work asks: Can traceable, multi-step reasoning supervision improve reasoning accuracy and the interpretability of Medical VQA? To this end, we introduce Step-CoT, a large-scale medical reasoning dataset with expert-curated, structured multi-step CoT aligned to clinical diagnostic workflows, implicitly grounding the model's reasoning in radiographic evidence. Step-CoT comprises more than 10K real clinical cases and 70K VQA pairs organized around diagnostic workflows, providing supervised intermediate steps that guide models to follow valid reasoning trajectories. To effectively learn from Step-CoT, we further introduce a teacher-student framework with a dynamic graph-structured focusing mechanism that prioritizes diagnostically informative steps while filtering out less relevant contexts. Our experiments show that using Step-CoT can improve reasoning accuracy and interpretability. Benchmark: github.com/hahaha111111/Step-CoT. Dataset Card: huggingface.co/datasets/fl-15o/Step-CoT

研究の動機と目的

臨床ワークフローに整合した追跡可能な逐次診断推論を課すことにより、医療VQAの解釈性と正確性の向上を動機づける。
放射線所見に基づく七段階の推論チェーンを有する大規模データセットを提供する。
有効な診断経路と動的知覚更新を導く監視付き中間ステップを可能にする。
複雑な逐次推論を軽量で一般化可能な生徒モデルへ蒸留する学習パラダイムをサポートする。

提案手法

Step-CoTを提示する。胸部X線ケース10000件超、QAペア70000件超、各ケースが診断ワークフローに整合した七段階推論を有する。
推論を臨床的に意味のある依存関係で結ばれたステップノードのグラフとしてモデル化し、クロスステップ整合性のためのグローバルメモリーノードを設置する。
教師-生徒フレームワークを提案する。教師はグラフアテンションネットワーク(GAT)メモリを用いてステップ間で推論し、生徒は知識蒸留（ハード監督、ソフトKD、CH整合性損失）で学習する。
教師と生徒で別々の最適化器を用いて訓練し、メモリとテキストプロンプトを活用して視覚的解釈を地固めし、推論の連続性を維持する。
七段階視覚CoTベンチマークで評価し、ChestX-ray8へのデータセット間転移を行い、メモリとプロンプトの寄与を示す破壊的要因分析を行う。

実験結果

リサーチクエスチョン

RQ1可追跡可能な多段階CoT監督は医療VQAの正確性と解釈性を向上させるか。
RQ2推論ステップを臨床ワークフローに整合させると、より信頼性が高くエビデンスに根ざした予測が得られるか。
RQ3教師-生徒CoTフレームワークは構造化された診断推論の学習と他データセットへの移植に有効か。

主な発見

Model	Accuracy	mAUC	Sensitivity	Specificity
LLaVA-Med	42.7	58.3	42.7	79.4
Med-Flamingo	30.1	61.2	28.4	89.8
VisualBERT	56.2(+9.3)	48.8(+14.3)	8.5(+1.6)	89.1(+2.7)
CLIP	64.7(+4.5)	48.8(+3.8)	10.1(+1.9)	87.5(+2.1)
ALBEF	68.1(+3.9)	53.9(+21.2)	16.3(+2.2)	91.5(+1.8)
BLIP	66.4(+4.6)	53.2(+21.7)	15.5(+1.7)	90.8(+2.1)
FLAVA	62.5(+4.6)	50.2(+14.0)	9.3(+1.6)	90.7(+1.6)
biomedclip	69.3(+3.8)	55.6(+20.4)	19.4(+2.3)	91.8(+1.7)
Ours (Teacher)	78.3	89.5	46.0	96.6
Ours (Student)	77.5	90.0	41.8	96.0

Step-CoTは、段階的監督が有効な場合、複数の視覚基盤モデルで診断推論性能を向上させる。
メモリを備えた教師モデルと蒸留された生徒モデルが最も高い段階別正確性を達成（教師=78.3、生徒=77.5、主要ベンチマークにおいて）。
ChestX-ray8へのデータセット横断転移では、Step-CoT訓練モデルが非段階的 counterparts よりも正確性、mAUC、特異度で上回る。
メモリとテキストプロンプトは重要であり、メモリを削除すると性能が大きく低下する。専門評価において教師は中間レベルの推論ステップで臨床医を上回った。
七段階の注意マップの可視化は、グローバルから病変特異的なエビデンスへ焦点が段階的に鋭くなることを示し、解釋可能な多段階推論を検証する。
アブレーション研究は、信頼できる段階的推論のためのGAT-メモリフレームワークと蒸留戦略の有効性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。