[论文解读] Thinking about GPT-3 In-Context Learning for Biomedical IE? Think Again
本研究在真实少样本设置下,系统比较了 GPT-3 few-shot prompt 学习与微调 BERT 尺寸模型在生物医学信息抽取任务(NER 和 RE)中的表现。尽管对 GPT-3 进行了提示工程、kNN 检索和校准技术的优化,微调较小的 PLM 仍始终优于上下文学习,尤其在数据规模增大时更为明显,揭示了其在处理空类(null cases)和低资源场景下的根本性局限。
The strong few-shot in-context learning capability of large pre-trained language models (PLMs) such as GPT-3 is highly appealing for application domains such as biomedicine, which feature high and diverse demands of language technologies but also high data annotation costs. In this paper, we present the first systematic and comprehensive study to compare the few-shot performance of GPT-3 in-context learning with fine-tuning smaller (i.e., BERT-sized) PLMs on two highly representative biomedical information extraction tasks, named entity recognition and relation extraction. We follow the true few-shot setting to avoid overestimating models' few-shot performance by model selection over a large validation set. We also optimize GPT-3's performance with known techniques such as contextual calibration and dynamic in-context example retrieval. However, our results show that GPT-3 still significantly underperforms compared to simply fine-tuning a smaller PLM. In addition, GPT-3 in-context learning also yields smaller gains in accuracy when more training data becomes available. Our in-depth analyses further reveal issues of the in-context learning setting that may be detrimental to information extraction tasks in general. Given the high cost of experimenting with GPT-3, we hope our study provides guidance for biomedical researchers and practitioners towards more promising directions such as fine-tuning small PLMs.
研究动机与目标
- 评估在真实少样本条件下,GPT-3 上下文学习在生物医学信息抽取(IE)任务中的实用性。
- 比较 GPT-3 上下文学习与微调较小的 BERT 尺寸预训练语言模型(PLMs)在两项核心 IE 任务(命名实体识别 NER 和关系抽取 RE)中的少样本性能表现。
- 探究近期优化技术(如提示设计、kNN 示例检索和上下文校准)是否能缩小 GPT-3 与微调 PLM 在生物医学 IE 中的性能差距。
- 分析上下文学习的固有局限,特别是其在处理空类(如无实体或无关系的句子)方面的困难,这可能阻碍通用 IE 性能的提升。
- 为生物医学研究人员和从业者提供切实可行的指导,推荐在成本效益和数据效率方面更优的 NLP 解决方案,优先选择微调而非上下文学习以满足当前生物医学 IE 的需求。
提出的方法
- 采用真实少样本设置(Perez et al., 2021),通过在 100-shot 训练集上使用交叉验证进行模型和提示选择,避免因依赖大规模验证集而导致的性能高估。
- 通过将任务重新表述为序列到序列生成,设计了针对 NER 和 RE 的系统化提示模板,采用包含任务指令、句子输入和示例演示的结构化格式。
- 实现了一个 k-最近邻(kNN)模块,基于句子嵌入动态检索最相关的上下文示例,提升少样本泛化能力。
- 在 NER 中应用 logits 偏置,将输出 token 限制为仅出现在输入句子中的词,减少幻觉现象并提升 token 级准确率。
- 在 RE 中应用上下文校准(Zhao et al., 2021),降低模型对特定关系的偏见,提升关系预测的公平性与可靠性。
- 开展消融研究,验证每项优化技术(提示设计、检索、校准)对 GPT-3 上下文学习性能的有效性。
实验结果
研究问题
- RQ1在真实少样本设置下,GPT-3 上下文学习是否在生物医学 NER 和 RE 任务中优于微调的 BERT 尺寸 PLM?
- RQ2近期优化技术(如提示设计、kNN 检索和上下文校准)在多大程度上能提升 GPT-3 上下文学习在生物医学 IE 中的表现?
- RQ3随着训练数据的增加,上下文学习的性能如何变化?在该数据规模下,其表现与微调模型相比如何?
- RQ4上下文学习在生物医学 IE 中存在哪些固有局限,特别是其在处理空类(如无实体的句子或无关系的配对)方面的表现?
- RQ5在低资源生物医学信息抽取任务中,上下文学习能否成为微调的可行且成本效益更高的替代方案?
主要发现
- 即使对 GPT-3 进行了高级技术优化,微调 BERT 尺寸 PLM 在所有评估的生物医学 NER 和 RE 数据集中始终优于 GPT-3 上下文学习。
- 当可用训练数据增加时,GPT-3 上下文学习的性能提升显著低于微调模型,而微调模型则随着数据规模扩大持续且稳定地提升。
- 上下文学习在空类处理上存在困难:在 NER 中频繁产生假阳性(如在无实体的句子中预测出实体),在 RE 中则常预测出不存在的关系,表明其在零样本泛化方面存在根本性缺陷。
- 即使在应用提示优化、kNN 检索和上下文校准后,GPT-3 上下文学习与微调模型之间的性能差距依然显著,表明当前技术尚不足以弥合这一差距。
- 消融研究证实,每项优化技术(提示设计、检索、校准)均能提升 GPT-3 的性能,但其综合效果仍无法达到微调小型 PLM 的鲁棒性与准确性。
- 本研究提供了实证证据,表明在低资源环境下,微调小型 PLM 仍是比 GPT-3 上下文学习更实用、更可靠且更具成本效益的生物医学 IE 策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。