QUICK REVIEW

[论文解读] Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering

Lin Fan, Yafei Ou|arXiv (Cornell University)|Mar 14, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

Step-CoT 引入一个结构化的、多步的视觉推理数据集用于医学 VQA，并提出一个师生框架来学习可验证、与临床工作流程对齐的逐步诊断推理。

ABSTRACT

Chain-of-thought (CoT) reasoning has advanced medical visual question answering (VQA), yet most existing CoT rationales are free-form and fail to capture the structured reasoning process clinicians actually follow. This work asks: Can traceable, multi-step reasoning supervision improve reasoning accuracy and the interpretability of Medical VQA? To this end, we introduce Step-CoT, a large-scale medical reasoning dataset with expert-curated, structured multi-step CoT aligned to clinical diagnostic workflows, implicitly grounding the model's reasoning in radiographic evidence. Step-CoT comprises more than 10K real clinical cases and 70K VQA pairs organized around diagnostic workflows, providing supervised intermediate steps that guide models to follow valid reasoning trajectories. To effectively learn from Step-CoT, we further introduce a teacher-student framework with a dynamic graph-structured focusing mechanism that prioritizes diagnostically informative steps while filtering out less relevant contexts. Our experiments show that using Step-CoT can improve reasoning accuracy and interpretability. Benchmark: github.com/hahaha111111/Step-CoT. Dataset Card: huggingface.co/datasets/fl-15o/Step-CoT

研究动机与目标

通过强制可追溯、逐步的诊断推理与临床工作流程对齐，提升医学 VQA 的可解释性与准确性。
提供一个大规模的数据集，含有专家策划的七步推理链，基于影像学证据。
实现对中间步骤的监督，指引模型走过有效的诊断轨迹与动态感知更新。
支持将复杂的逐步推理蒸馏为一个轻量、可泛化的学生模型的训练范式。

提出的方法

提出 Step-CoT 数据集，包含超过 10K 例胸部 X 射线及 70K 问答对，每对都具备与诊断工作流程对齐的七步推理。
将推理建模为一个由对诊断工作流程具有临床意义的依赖连接的步骤节点图，并设全局记忆节点以实现跨步的一致性。
提出一个师生框架，其中教师使用图注意力网络 (GAT) 记忆在跨步推理中进行推理，学生通过知识蒸馏进行学习（硬监督、软 KD 与 CH 对齐损失）。
分别使用教师与学生的独立优化器进行训练；利用记忆与文本提示来支撑视觉解释并维持推理连贯性。
通过一个逐步视觉 CoT 基准进行评估，进行到 ChestX-ray8 的跨数据集迁移，以及消融实验以展示记忆与提示的贡献。

实验结果

研究问题

RQ1可追溯的多步 CoT 监督是否能提升医学 VQA 的准确性与可解释性？
RQ2将推理步骤与临床工作流程对齐是否能带来更可靠、基于证据的预测？
RQ3师生 CoT 框架在学习结构化诊断推理并可迁移到其他数据集方面是否有效？

主要发现

Step-CoT 在多种视觉基础模型上通过逐步监督提升诊断推理性能。
具备记忆的教师模型与蒸馏后的学生在逐步准确性上达到最高（教师：78.3，学生：77.5，主基准上）。
跨数据集迁移到 ChestX-ray8 显示 Step-CoT 训练的模型在准确性、mAUC 与特异性方面优于非逐步对照模型。
记忆与文本提示至关重要；移除记忆会显著下降性能，且在专家评估中的中等阶段推理上教师优于临床医生。
对七步注意力图的可视化显示证据从全局逐步聚焦到病灶特定证据，验证了可解释的多步推理。
消融研究证实 GAT-记忆框架与蒸馏策略在可靠的逐步推理方面的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。