QUICK REVIEW

[论文解读] RadOnc-GPT: A Large Language Model for Radiation Oncology

Zhengliang Liu, P. Wang|arXiv (Cornell University)|Sep 18, 2023

Topic Modeling被引用 11

一句话总结

RadOnc-GPT 是一个基于领域微调的 LLM（基于 LLama2），针对 Mayo Clinic Mayo Clinic Arizona 放射治疗数据进行训练，以生成放射治疗方案、选择治疗方式，并提供诊断描述/ICD 代码，据 ROUGE 指标显示在这些任务上优于通用 LLM（Llama2）。

ABSTRACT

This paper presents RadOnc-GPT, a large language model specialized for radiation oncology through advanced tuning methods. RadOnc-GPT was finetuned on a large dataset of radiation oncology patient records from the Mayo Clinic in Arizona. The model employs instruction tuning on three key tasks - generating radiotherapy treatment regimens, determining optimal radiation modalities, and providing diagnostic descriptions/ICD codes based on patient diagnostic details. Evaluations conducted by comparing RadOnc-GPT outputs to general large language model outputs showed higher ROUGE scores in these three tasks. The study demonstrated the potential of using large language models fine-tuned using domain-specific knowledge like RadOnc-GPT to achieve transformational capabilities in highly specialized healthcare fields such as radiation oncology. However, our model's clinical relevance requires confirmation, and it specializes in only the aforementioned three specific tasks and lacks broader applicability. Furthermore, its evaluation through ROUGE scores might not reflect the true semantic and clinical accuracy - challenges we intend to address in future research.

研究动机与目标

通过使用领域特定的LLM提升放射治疗工作流程的精准性和效率。
创建一个可从患者数据生成放疗治疗方案的专门模型。
基于临床细节自动为治疗方式选择和 ICD 诊断编码提供建议。
展示在领域相关文本生成任务中相较于通用 LLM 的改进。
解决医疗保健 AI 开发中的隐私和数据整理问题。

提出的方法

使用来自 Mayo Clinic 记录的领域特定放射治疗数据对基于 LLama2 的模型进行微调。
在三个任务上进行指令微调以使模型专门化：放疗方案生成、治疗方式确定、诊断描述/ICD 代码预测。
使用 LoRA（低秩适应）及指定超参数实现高效的任务特定微调。
通过将疾病史/状态与治疗计划分离并对标识符进行去识别来整理数据。
使用 ROUGE 指标对输出与通用 LLM（Llama2）进行比较，以评估各任务的内容质量。

实验结果

研究问题

RQ1领域微调的 LLM 能否从患者数据中生成临床一致的放疗方案？
RQ2模型是否能够基于患者详情推荐合适的放疗模式（例如质子 vs 光子）？
RQ3模型能否准确提供与患者信息对齐的诊断描述或 ICD 代码？
RQ4基于 ROUGE 指标，领域特定微调模型在这些放射治疗任务上是否优于通用 LLM？
RQ5来自专门化放射治疗 LLM 的输出有哪些局限性和临床相关性？

主要发现

RadOnc-GPT 在放疗方案生成方面显著优于 LLama2（ROUGE-1: 0.4341 vs 0.0739；ROUGE-2: 0.2250 vs 0.0049；ROUGE-L: 0.4271 vs 0.0657）。
RadOnc-GPT 在治疗方式选择方面表现出强大的性能（ROUGE-1: 0.7903 vs 更低的基线；ROUGE-L: 0.7903 并且一致性更高）。
RadOnc-GPT 显著提升诊断描述/ICD 代码生成（ROUGE-1: 0.7050 vs 0.0786；ROUGE-2: 0.6203 vs 0.0110；ROUGE-L: 0.7026 vs 0.0609）。
该模型作为三个独立的指令微调任务进行训练，使用基于 LoRA 的微调以提高效率与稳定性。
评估依赖 ROUGE 分数，可能无法充分捕捉临床语义准确性或实际应用价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。