[论文解读] SciBERT: A Pretrained Language Model for Scientific Text
SciBert通过在大规模科学语料上进行域内词汇表预训练,在多项科学NLP任务上实现新的SOTA;微调SciBert通常比使用冻结的嵌入获得更好结果。
Obtaining large-scale annotated data for NLP tasks in the scientific domain is challenging and expensive. We release SciBERT, a pretrained language model based on BERT (Devlin et al., 2018) to address the lack of high-quality, large-scale labeled scientific data. SciBERT leverages unsupervised pretraining on a large multi-domain corpus of scientific publications to improve performance on downstream scientific NLP tasks. We evaluate on a suite of tasks including sequence tagging, sentence classification and dependency parsing, with datasets from a variety of scientific domains. We demonstrate statistically significant improvements over BERT and achieve new state-of-the-art results on several of these tasks. The code and pretrained models are available at https://github.com/allenai/scibert/.
研究动机与目标
- 由于高质量标注的科学数据有限,推动域特定预训练的必要性。
- 提出SciBert,基于Bert的模型,在大规模科学语料上进行训练。
- 评估微调与冻结嵌入的区别,以及域内词汇表的影响。
- 展示SciBert在多样的科学NLP任务上取得改进和新的SOTA。
提出的方法
- 采用Bert结构并为科学文本设计两步预测目标进行预训练。
- 使用SentencePiece构建SciVocab,创建30K域内词汇表。
- 在1.14M篇Semantic Scholar论文(3.17B token)上对SciBert进行全文本训练。
- 在多项任务上评估大写/小写版本以及BaseVocab/SciVocab变体。
- 微调或冻结嵌入,并比较架构以评估域内预训练的收益。
- 使用dropout、Adam优化和斜三角学习率调度;以标准指标进行评估。
实验结果
研究问题
- RQ1域内的科学文本预训练是否对科学NLP任务的性能优于通用BERT?
- RQ2在下游任务中,使用域内SciVocab相对于原始BaseVocab的影响如何?
- RQ3在冻结嵌入的前提下,任务特定架构是否具备与对SciBert进行全微调的竞争力?
- RQ4与以往SOTA相比,SciBert在生物医学、计算机科学和多领域数据集上的表现如何?
主要发现
| Field | Task | Dataset | SOTA | Bert-Base Frozen | Bert-Base Finetune | SciBert Frozen | SciBert Finetune |
|---|---|---|---|---|---|---|---|
| Bio | NER | BC5CDR Li et al. (2016) | 88.85 | 85.08 | 86.72 | 88.73 | 90.01 |
| Bio | NER | JNLPBA Collier and Kim (2004) | 78.58 | 74.05 | 76.09 | 75.77 | 77.28 |
| Bio | NER | NCBI-disease Dogan et al. (2014) | 89.36 | 84.06 | 86.88 | 86.39 | 88.57 |
| Bio | PICO | EBM-NLP Nye et al. (2018) | 66.30 | 61.44 | 71.53 | 68.30 | 72.28 |
| Bio | DEP | GENIA LAS Kim et al. (2003) | 91.92 | 90.22 | 90.33 | 90.36 | 90.43 |
| Bio | DEP | GENIA UAS Kim et al. (2003) | 92.84 | 91.84 | 91.89 | 92.00 | 91.99 |
| Bio | REL | ChemProt Kringelum et al. (2016) | 76.68 | 68.21 | 79.14 | 75.03 | 83.64 |
| CS | NER | SciERC Luan et al. (2018) | 64.20 | 63.58 | 65.24 | 65.77 | 67.57 |
| CS | REL | SciERC Luan et al. (2018) | n/a | 72.74 | 78.71 | 75.25 | 79.97 |
| CS | CLS | ACL-ARC Jurgens et al. (2018) | 67.9 | 62.04 | 63.91 | 60.74 | 70.98 |
| Multi | CLS | Paper Field (Microsoft Academic Graph) | n/a | 63.64 | 65.37 | 64.38 | 65.71 |
| Multi | CLS | SciCite Cohan et al. (2019) | 84.0 | 84.31 | 84.85 | 85.42 | 85.49 |
| Average | - | - | 73.58 | 77.16 | 76.01 | 79.27 |
- SciBert在科学任务上通过微调相较BERT-Base提升了+2.11 F1,未微调提升了+2.43 F1(在各数据集上取平均)。
- SciBert在若干任务上达到新的SOTA,尤其在生物医学和计算机科学领域。
- 相较于BioBert和其他领域模型,SciBert在BC5CDR、ChemProt、ACL-ARC和SciCite等多个数据集上表现具有竞争力或优越性。
- 大多数领域中,SciBert的微调结果超过冻结嵌入的基线;微调带来最大的提升。
- 使用域内SciVocab相较BaseVocab带来适度的额外提升(平均+0.60 F1),表明语料预训练是主要收益来源。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。