[论文解读] SciBERT: A Pretrained Language Model for Scientific Text
SciBert通过在大规模科学语料上进行域内词汇表预训练,在多项科学NLP任务上实现新的SOTA;微调SciBert通常比使用冻结的嵌入获得更好结果。
Obtaining large-scale annotated data for NLP tasks in the scientific domain is challenging and expensive. We release SciBERT, a pretrained language model based on BERT (Devlin et al., 2018) to address the lack of high-quality, large-scale labeled scientific data. SciBERT leverages unsupervised pretraining on a large multi-domain corpus of scientific publications to improve performance on downstream scientific NLP tasks. We evaluate on a suite of tasks including sequence tagging, sentence classification and dependency parsing, with datasets from a variety of scientific domains. We demonstrate statistically significant improvements over BERT and achieve new state-of-the-art results on several of these tasks. The code and pretrained models are available at https://github.com/allenai/scibert/.
研究动机与目标
- 由于高质量标注的科学数据有限,推动域特定预训练的必要性。
- 提出SciBert,基于Bert的模型,在大规模科学语料上进行训练。
- 评估微调与冻结嵌入的区别,以及域内词汇表的影响。
- 展示SciBert在多样的科学NLP任务上取得改进和新的SOTA。
提出的方法
- 采用Bert结构并为科学文本设计两步预测目标进行预训练。
- 使用SentencePiece构建SciVocab,创建30K域内词汇表。
- 在1.14M篇Semantic Scholar论文(3.17B token)上对SciBert进行全文本训练。
- 在多项任务上评估大写/小写版本以及BaseVocab/SciVocab变体。
- 微调或冻结嵌入,并比较架构以评估域内预训练的收益。
- 使用dropout、Adam优化和斜三角学习率调度;以标准指标进行评估。
实验结果
研究问题
- RQ1域内的科学文本预训练是否对科学NLP任务的性能优于通用BERT?
- RQ2在下游任务中,使用域内SciVocab相对于原始BaseVocab的影响如何?
- RQ3在冻结嵌入的前提下,任务特定架构是否具备与对SciBert进行全微调的竞争力?
- RQ4与以往SOTA相比,SciBert在生物医学、计算机科学和多领域数据集上的表现如何?
主要发现
- SciBert在科学任务上通过微调相较BERT-Base提升了+2.11 F1,未微调提升了+2.43 F1(在各数据集上取平均)。
- SciBert在若干任务上达到新的SOTA,尤其在生物医学和计算机科学领域。
- 相较于BioBert和其他领域模型,SciBert在BC5CDR、ChemProt、ACL-ARC和SciCite等多个数据集上表现具有竞争力或优越性。
- 大多数领域中,SciBert的微调结果超过冻结嵌入的基线;微调带来最大的提升。
- 使用域内SciVocab相较BaseVocab带来适度的额外提升(平均+0.60 F1),表明语料预训练是主要收益来源。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。