[论文解读] Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events
论文表明,将大型语言模型(LLM)的知识蒸馏到任务特定的 PubMedBERT 学生模型,可以在无标注数据的情况下实现与ADE提取的竞争性能,超越教师模型甚至 GPT-4,同时模型规模超过1000倍更小并提供白盒访问。
Large language models (LLMs), such as GPT-4, have demonstrated remarkable capabilities across a wide range of tasks, including health applications. In this paper, we study how LLMs can be used to scale biomedical knowledge curation. We find that while LLMs already possess decent competency in structuring biomedical text, by distillation into a task-specific student model through self-supervised learning, substantial gains can be attained over out-of-box LLMs, with additional advantages such as cost, efficiency, and white-box model access. We conduct a case study on adverse drug event (ADE) extraction, which is an important area for improving care. On standard ADE extraction evaluation, a GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised state-of-the-art models without using any labeled data. Despite being over 1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by over 6 absolute points in F1 and GPT-4 by over 5 absolute points. Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT) and ADE extraction architecture shed light on best practice for biomedical knowledge extraction. Similar gains were attained by distillation for other standard biomedical knowledge extraction tasks such as gene-disease associations and protected health information, further illustrating the promise of this approach.
研究动机与目标
- 以大型语言模型(LLMs)推动可扩展的生物医学知识整理。
- 证明从LLMs蒸馏到任务特定学生模型可以提升效率和准确性。
- 开发一个端到端的ADE提取架构,适用于大规模处理,效率高。
- 展示蒸馏的收益可扩展到ADE提取之外的其他生物医学NLP任务。
提出的方法
- 提出一个统一的药物为中心的一体化端到端ADE提取架构,在一次前向中结合NER和关系提取。
- 对药物提及进行均值池化,将药物表示与token隐藏状态拼接,以实现按药物对ADE token进行分类。
- 在拼接后的表示上应用单一线性分类器并使用sigmoid激活来预测ADE区间。
- 从PubMed摘要中整理一个药物聚焦的无标签语料库,并使用GPT-3.5教师来生成ADE标注以进行自监督。
- 将其蒸馏为学生模型(PubMedBERT和BioGPT),使用教师生成的40,000个带标签类似对;比较零-shot/少量-shot提示。
- 在ADE语料库(Gurulingappa 等,2012)上用宽松的F1进行评估,并对模型选择与架构进行消融研究。
实验结果
研究问题
- RQ1与零-shot/少量-shot的LLM以及有监督基线相比,LLM蒸馏在端到端ADE提取中的有效性如何?
- RQ2蒸馏架构与模型选择对生物医学知识提取任务有何影响?
- RQ3从LLMs进行的蒸馏是否能推广到其他生物医学NLP任务,如基因-疾病关联和PHI?
主要发现
| 方法 | 教师 LLM | 模型 | 训练实例 | 测试 F1 |
|---|---|---|---|---|
| LLM 开箱即用 | - | GPT-3.5 (零-shot) | - | 78.22 |
| LLM 开箱即用 | - | GPT-4 (零-shot) | - | 84.92 |
| LLM 开箱即用 | - | GPT-3.5 (5-shot) | - | 85.21 |
| LLM 开箱即用 | - | GPT-4 (5-shot) | - | 86.45 |
| 蒸馏 | GPT-3.5 (5-shot) | BioGPT | 40,000 | 84.21 |
| 蒸馏 | GPT-3.5 (5-shot) | PubMedBERT | 40,000 | 91.99 |
| 有监督学习 | - | BioGPT | 3,417 | 88.08 |
| 有监督学习 | - | PubMedBERT | 3,417 | 93.36 |
- 经过GPT-3.5蒸馏的PubMedBERT在ADE提取上达到与有监督的SOTA相当的准确性,且无需标注数据。
- 蒸馏后的PubMedBERT(尺寸小于1000倍)在F1上比其教师GPT-3.5高出超过6个绝对点,且比GPT-4高出超过5个绝对点。
- 开箱即用的GPT-3.5和GPT-4具有竞争力,但落后于有监督模型;蒸馏显著缩小差距。
- 蒸馏后的BioGPT在ADE任务中的表现不及PubMedBERT,与先前的观察一致:GPT模型在生成任务上表现优秀,但知识提取较难。
- 蒸馏在其他生物医学任务如基因-疾病关联和PHI上也有收益;MedNLI在纯粹蕴涵任务上的收益则更有限。
- 消融研究强调蒸馏设计选择(架构和模型)对生物医学知识提取的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。