[论文解读] ChatGPT Makes Medicine Easy to Swallow: An Exploratory Case Study on Simplified Radiology Reports
本研究评估放射科医生对 ChatGPT 简化放射报告的质量判断,发现其在事实正确性和完整性方面基本正确,但存在不准确的情况以及潜在的有害影响。
The release of ChatGPT, a language model capable of generating text that appears human-like and authentic, has gained significant attention beyond the research community. We expect that the convincing performance of ChatGPT incentivizes users to apply it to a variety of downstream tasks, including prompting the model to simplify their own medical reports. To investigate this phenomenon, we conducted an exploratory case study. In a questionnaire, we asked 15 radiologists to assess the quality of radiology reports simplified by ChatGPT. Most radiologists agreed that the simplified reports were factually correct, complete, and not potentially harmful to the patient. Nevertheless, instances of incorrect statements, missed key medical findings, and potentially harmful passages were reported. While further studies are needed, the initial insights of this study indicate a great potential in using large language models like ChatGPT to improve patient-centered care in radiology and other medical domains.
研究动机与目标
- 评估 ChatGPT 简化的放射报告在事实正确性、完整性以及对患者的安全性方面的表现。
- 调查由自动简化引发的常见错误类型及潜在危害。
- 提供有关使用大型语言模型(LLMs)进行以患者为中心的放射沟通的初步机会与挑战的见解。
提出的方法
- 设计一个包含三份由经验丰富的放射科医生撰写的虚构放射报告的探索性案例研究。
- 提示 ChatGPT 为每份原始报告创建 15 个独特的简化版本,总计 45 个输出。
- 让 15 名放射科医生使用结构化问卷对简化报告在事实正确性、完整性和潜在危害方面进行评分。
- 使用描述性统计(中位数、分位数、IQR、最小/最大、均值、标准差)分析评分,并对回答进行归纳的自由文本分类。
实验结果
研究问题
- RQ1放射科医生对 ChatGPT 生成的简化放射报告质量的意见是什么?
- RQ2简化后的报告在事实正确性和完整性方面是否符合,且是否对患者造成潜在危害?
- RQ3ChatGPT 生成的简化中常见的错误类型或遗漏是什么?
- RQ4在三种原始报告类型( Knee MRI、Head MRI、Oncol. CT)中,评分有何差异?
主要发现
| Question | Median | Q1 | Q3 | IQR | Min | Max | Mean | SD |
|---|---|---|---|---|---|---|---|---|
| 事实正确性 | 2 | 2 | 2 | 0 | 1 | 4 | 2.2 | 0.9 |
| 完整性 | 2 | 1 | 2 | 1 | 1 | 4 | 1.8 | 0.7 |
| 潜在危害 | 4 | 3 | 4 | 1 | 2 | 5 | 3.5 | 1.0 |
- 放射科医生普遍认为简化报告在事实正确性和完整性方面是正确的(中位数 = 2,分别为两项)。
- 潜在危害评分变异性更大(中位数 = 4),存在中立和同意/赞同的回答。
- 自由文本分析揭示错误,如对医学术语的误解、措辞不准确、臆断性描述以及在若干简化报告中缺失关键发现。
- 误解包括将鉴别诊断呈现为最终诊断,以及像 thyroid struma 这样的术语被错误描述。
- 简化 Knee MRI 报告的字数通常长于原件(中位数 414 对 222)。
- 在各报告中,错误段落被 51% 的参与者指出,信息缺失占 22%,潜在有害结论占 36%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。