Skip to main content
QUICK REVIEW

[论文解读] SciBERT: A Pretrained Language Model for Scientific Text

Iz Beltagy, Kyle Lo|arXiv (Cornell University)|Mar 26, 2019
Topic Modeling参考文献 27被引用 48
一句话总结

SciBert通过在大规模科学语料上进行域内词汇表预训练,在多项科学NLP任务上实现新的SOTA;微调SciBert通常比使用冻结的嵌入获得更好结果。

ABSTRACT

Obtaining large-scale annotated data for NLP tasks in the scientific domain is challenging and expensive. We release SciBERT, a pretrained language model based on BERT (Devlin et al., 2018) to address the lack of high-quality, large-scale labeled scientific data. SciBERT leverages unsupervised pretraining on a large multi-domain corpus of scientific publications to improve performance on downstream scientific NLP tasks. We evaluate on a suite of tasks including sequence tagging, sentence classification and dependency parsing, with datasets from a variety of scientific domains. We demonstrate statistically significant improvements over BERT and achieve new state-of-the-art results on several of these tasks. The code and pretrained models are available at https://github.com/allenai/scibert/.

研究动机与目标

  • 由于高质量标注的科学数据有限,推动域特定预训练的必要性。
  • 提出SciBert,基于Bert的模型,在大规模科学语料上进行训练。
  • 评估微调与冻结嵌入的区别,以及域内词汇表的影响。
  • 展示SciBert在多样的科学NLP任务上取得改进和新的SOTA。

提出的方法

  • 采用Bert结构并为科学文本设计两步预测目标进行预训练。
  • 使用SentencePiece构建SciVocab,创建30K域内词汇表。
  • 在1.14M篇Semantic Scholar论文(3.17B token)上对SciBert进行全文本训练。
  • 在多项任务上评估大写/小写版本以及BaseVocab/SciVocab变体。
  • 微调或冻结嵌入,并比较架构以评估域内预训练的收益。
  • 使用dropout、Adam优化和斜三角学习率调度;以标准指标进行评估。

实验结果

研究问题

  • RQ1域内的科学文本预训练是否对科学NLP任务的性能优于通用BERT?
  • RQ2在下游任务中,使用域内SciVocab相对于原始BaseVocab的影响如何?
  • RQ3在冻结嵌入的前提下,任务特定架构是否具备与对SciBert进行全微调的竞争力?
  • RQ4与以往SOTA相比,SciBert在生物医学、计算机科学和多领域数据集上的表现如何?

主要发现

  • SciBert在科学任务上通过微调相较BERT-Base提升了+2.11 F1,未微调提升了+2.43 F1(在各数据集上取平均)。
  • SciBert在若干任务上达到新的SOTA,尤其在生物医学和计算机科学领域。
  • 相较于BioBert和其他领域模型,SciBert在BC5CDR、ChemProt、ACL-ARC和SciCite等多个数据集上表现具有竞争力或优越性。
  • 大多数领域中,SciBert的微调结果超过冻结嵌入的基线;微调带来最大的提升。
  • 使用域内SciVocab相较BaseVocab带来适度的额外提升(平均+0.60 F1),表明语料预训练是主要收益来源。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。