[论文解读] Do We Still Need Clinical Language Models?
本文比较了12种语言模型在3个临床任务上的表现,发现小型的、领域内训练的临床模型优于使用大型通用模型进行上下文提示学习的方式,强调了在临床文本领域进行特定预训练的价值。
Although recent advances in scaling large language models (LLMs) have resulted in improvements on many NLP tasks, it remains unclear whether these models trained primarily with general web text are the right tool in highly specialized, safety critical domains such as clinical text. Recent results have suggested that LLMs encode a surprising amount of medical knowledge. This raises an important question regarding the utility of smaller domain-specific language models. With the success of general-domain LLMs, is there still a need for specialized clinical models? To investigate this question, we conduct an extensive empirical analysis of 12 language models, ranging from 220M to 175B parameters, measuring their performance on 3 different clinical tasks that test their ability to parse and reason over electronic health records. As part of our experiments, we train T5-Base and T5-Large models from scratch on clinical notes from MIMIC III and IV to directly investigate the efficiency of clinical tokens. We show that relatively small specialized clinical models substantially outperform all in-context learning approaches, even when finetuned on limited annotated data. Further, we find that pretraining on clinical tokens allows for smaller, more parameter-efficient models that either match or outperform much larger language models trained on general text. We release the code and the models used under the PhysioNet Credentialed Health Data license and data use agreement.
研究动机与目标
- 评估在领域无关的大语言模型取得进展的情况下,是否仍需要专门的临床语言模型。
- 使用电子病历笔记在一系列临床相关任务上评估模型(参数量为2.20亿至1750亿)。
- 研究在临床数据与通用领域数据上的预训练对模型性能与效率的影响。
- 分析自建临床预训练在何时具有成本效益,以及领域内标记对性能的影响。
提出的方法
- 在基于MIMIC笔记的三个临床任务上训练并评估12种语言模型。
- 开发三种Clinical-T5模型(从零开始和带检查点初始化),在MIMIC III/IV上进行预训练。
- 使用微调和上下文学习,将专业化临床模型与通用领域模型和大型LLM进行比较。
- 使用任务特定的指标:MedNLI准确率、RadQA标记级F1和精确匹配、CLIP微观/宏观F1。
- 提供基于FLOPs的成本分析,以比较不同模型规模下的从零开始预训练与微调/推理成本。

实验结果
研究问题
- RQ1在临床笔记任务上,较小的专门化临床模型是否优于使用大型通用领域LLM的上下文学习?
- RQ2在临床数据上进行预训练是否能产生在FLOPs方面更高效、与更大通用领域模型相匹配或超过它们?
- RQ3在性能与成本方面,自建临床预训练与领域自适应预训练之间的权衡是什么?
- RQ4在不同任务中,领域内标记使用量与通用领域预训练相比,性能如何扩展?
- RQ5在安全关键的临床NLP中,上下文学习是否可以作为微调临床模型的可行替代方案?
主要发现
- 专门化的临床模型即使只有345M参数,在各任务上也显著优于上下文学习方法。
- Clinical-T5-Large和Clinical-T5-Base在性能上优于其通用领域对应模型,自建预训练带来最大改进。
- 如BioClinRoBERTa和GatorTron等临床模型在任务性能上达到最高,参数往往远少于像T5-XL或GPT-3这样的大型通用模型。
- 在临床数据上的预训练使较小的模型达到甚至超过较大通用领域模型的水平,强调数据领域的重要性高于单纯大小。
- 在少量样本设定下,专门化临床模型通常优于基于ICL的大型LLM,尽管结果因任务与数据可用性而异。
- 研究提供了盈亏成本分析,表明在许多场景下,从零开始训练一个较小的临床模型可能比持续使用更大通用领域模型进行推理更具成本效益。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。