[论文解读] Translating Radiology Reports into Plain Language using ChatGPT and GPT-4 with Prompt Learning: Promising Results, Limitations, and Potential
本文评估使用 ChatGPT 和 GPT-4 结合提示学习将放射科报告翻译为通俗语言,显示出有希望的质量与有用的建议,但指出存在不一致性和仍然存在的局限性。
The large language model called ChatGPT has drawn extensively attention because of its human-like expression and reasoning abilities. In this study, we investigate the feasibility of using ChatGPT in experiments on using ChatGPT to translate radiology reports into plain language for patients and healthcare providers so that they are educated for improved healthcare. Radiology reports from 62 low-dose chest CT lung cancer screening scans and 76 brain MRI metastases screening scans were collected in the first half of February for this study. According to the evaluation by radiologists, ChatGPT can successfully translate radiology reports into plain language with an average score of 4.27 in the five-point system with 0.08 places of information missing and 0.07 places of misinformation. In terms of the suggestions provided by ChatGPT, they are general relevant such as keeping following-up with doctors and closely monitoring any symptoms, and for about 37% of 138 cases in total ChatGPT offers specific suggestions based on findings in the report. ChatGPT also presents some randomness in its responses with occasionally over-simplified or neglected information, which can be mitigated using a more detailed prompt. Furthermore, ChatGPT results are compared with a newly released large model GPT-4, showing that GPT-4 can significantly improve the quality of translated reports. Our results show that it is feasible to utilize large language models in clinical education, and further efforts are needed to address limitations and maximize their potential.
研究动机与目标
- 评估使用 ChatGPT 和 GPT-4 将放射科报告翻译为面向患者和提供者的通俗语言的可行性。
- 评估翻译质量以及生成的患者/提供者建议的有用性。
- 研究提示设计如何影响翻译质量,以及提示优化和集成方法的作用。
提出的方法
- 从临床数据库收集了62份胸部CT肺癌筛查报告和76份脑部MRI筛查报告。
- 对 ChatGPT 应用三个提示:翻译为通俗语言、患者建议和提供者建议。
- 将 ChatGPT 的翻译与放射科医生在完整性、正确性和整体质量方面的评估进行比较。
- 在相同提示和评估框架下,将 ChatGPT 与 GPT-4 进行比较。
- 探索提示优化、提示工程变体和集成翻译以评估对质量的影响。
实验结果
研究问题
- RQ1ChatGPT 和 GPT-4 能否将放射科报告翻译为准确且对患者友好的通俗语言?
- RQ2由放射科医生评判的 ChatGPT 和 GPT-4 翻译报告的质量,在信息缺失或误解方面如何?
- RQ3提示和提示优化是否真正提升翻译质量以及所生成建议的可用性?
- RQ4包括集成方法在内的不同提示策略在翻译表现上有何差异?
- RQ5临床部署的局限性与潜在安全考量是什么?
主要发现
- ChatGPT 翻译在放射科医生对所报道报告的评分中平均达到 4.268(5 分制)。
- 胸部 CT 平均信息缺失为 0.080 分,脑部 MRI 为 0.066;翻译平均错误信息为 0.065。
- 总体而言,胸部 CT 翻译中有 76% 获得 5 分,脑部 MRI 翻译中有 32% 达到 5 分(在报告范围内)。
- GPT-4 的翻译在原始提示和优化提示下显著超越 ChatGPT,在某些条件下接近近乎完美的结果(例如,使用优化提示时有 96.8% 良好)。
- 与模糊提示相比,优化提示显著提高了完整性并减少遗漏和误解(例如,"好翻译"从 55.2% 提升到 77.2%)。
- 约 37% 的病例给出基于报告的针对患者或提供者的具体建议;大多数建议是通用且相关的(例如,跟医生随访、沟通结果)。
- 提示工程和集成方法在许多情景中相对于优化提示带来的增益有限且不显著;集成有时会带来过度简化或小的遗漏。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。