Skip to main content
QUICK REVIEW

[论文解读] SciBERT: A Pretrained Language Model for Scientific Text

Iz Beltagy, Kyle Lo|arXiv (Cornell University)|Mar 26, 2019
Topic Modeling参考文献 27被引用 48
一句话总结

SciBert通过在大规模科学语料上进行域内词汇表预训练,在多项科学NLP任务上实现新的SOTA;微调SciBert通常比使用冻结的嵌入获得更好结果。

ABSTRACT

Obtaining large-scale annotated data for NLP tasks in the scientific domain is challenging and expensive. We release SciBERT, a pretrained language model based on BERT (Devlin et al., 2018) to address the lack of high-quality, large-scale labeled scientific data. SciBERT leverages unsupervised pretraining on a large multi-domain corpus of scientific publications to improve performance on downstream scientific NLP tasks. We evaluate on a suite of tasks including sequence tagging, sentence classification and dependency parsing, with datasets from a variety of scientific domains. We demonstrate statistically significant improvements over BERT and achieve new state-of-the-art results on several of these tasks. The code and pretrained models are available at https://github.com/allenai/scibert/.

研究动机与目标

  • 由于高质量标注的科学数据有限,推动域特定预训练的必要性。
  • 提出SciBert,基于Bert的模型,在大规模科学语料上进行训练。
  • 评估微调与冻结嵌入的区别,以及域内词汇表的影响。
  • 展示SciBert在多样的科学NLP任务上取得改进和新的SOTA。

提出的方法

  • 采用Bert结构并为科学文本设计两步预测目标进行预训练。
  • 使用SentencePiece构建SciVocab,创建30K域内词汇表。
  • 在1.14M篇Semantic Scholar论文(3.17B token)上对SciBert进行全文本训练。
  • 在多项任务上评估大写/小写版本以及BaseVocab/SciVocab变体。
  • 微调或冻结嵌入,并比较架构以评估域内预训练的收益。
  • 使用dropout、Adam优化和斜三角学习率调度;以标准指标进行评估。

实验结果

研究问题

  • RQ1域内的科学文本预训练是否对科学NLP任务的性能优于通用BERT?
  • RQ2在下游任务中,使用域内SciVocab相对于原始BaseVocab的影响如何?
  • RQ3在冻结嵌入的前提下,任务特定架构是否具备与对SciBert进行全微调的竞争力?
  • RQ4与以往SOTA相比,SciBert在生物医学、计算机科学和多领域数据集上的表现如何?

主要发现

FieldTaskDatasetSOTABert-Base FrozenBert-Base FinetuneSciBert FrozenSciBert Finetune
BioNERBC5CDR Li et al. (2016)88.8585.0886.7288.7390.01
BioNERJNLPBA Collier and Kim (2004)78.5874.0576.0975.7777.28
BioNERNCBI-disease Dogan et al. (2014)89.3684.0686.8886.3988.57
BioPICOEBM-NLP Nye et al. (2018)66.3061.4471.5368.3072.28
BioDEPGENIA LAS Kim et al. (2003)91.9290.2290.3390.3690.43
BioDEPGENIA UAS Kim et al. (2003)92.8491.8491.8992.0091.99
BioRELChemProt Kringelum et al. (2016)76.6868.2179.1475.0383.64
CSNERSciERC Luan et al. (2018)64.2063.5865.2465.7767.57
CSRELSciERC Luan et al. (2018)n/a72.7478.7175.2579.97
CSCLSACL-ARC Jurgens et al. (2018)67.962.0463.9160.7470.98
MultiCLSPaper Field (Microsoft Academic Graph)n/a63.6465.3764.3865.71
MultiCLSSciCite Cohan et al. (2019)84.084.3184.8585.4285.49
Average--73.5877.1676.0179.27
  • SciBert在科学任务上通过微调相较BERT-Base提升了+2.11 F1,未微调提升了+2.43 F1(在各数据集上取平均)。
  • SciBert在若干任务上达到新的SOTA,尤其在生物医学和计算机科学领域。
  • 相较于BioBert和其他领域模型,SciBert在BC5CDR、ChemProt、ACL-ARC和SciCite等多个数据集上表现具有竞争力或优越性。
  • 大多数领域中,SciBert的微调结果超过冻结嵌入的基线;微调带来最大的提升。
  • 使用域内SciVocab相较BaseVocab带来适度的额外提升(平均+0.60 F1),表明语料预训练是主要收益来源。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。