QUICK REVIEW

[论文解读] SciBERT: A Pretrained Language Model for Scientific Text

Iz Beltagy, Kyle Lo|arXiv (Cornell University)|Mar 26, 2019

Topic Modeling参考文献 27被引用 48

一句话总结

SciBert通过在大规模科学语料上进行域内词汇表预训练，在多项科学NLP任务上实现新的SOTA；微调SciBert通常比使用冻结的嵌入获得更好结果。

ABSTRACT

Obtaining large-scale annotated data for NLP tasks in the scientific domain is challenging and expensive. We release SciBERT, a pretrained language model based on BERT (Devlin et al., 2018) to address the lack of high-quality, large-scale labeled scientific data. SciBERT leverages unsupervised pretraining on a large multi-domain corpus of scientific publications to improve performance on downstream scientific NLP tasks. We evaluate on a suite of tasks including sequence tagging, sentence classification and dependency parsing, with datasets from a variety of scientific domains. We demonstrate statistically significant improvements over BERT and achieve new state-of-the-art results on several of these tasks. The code and pretrained models are available at https://github.com/allenai/scibert/.

研究动机与目标

由于高质量标注的科学数据有限，推动域特定预训练的必要性。
提出SciBert，基于Bert的模型，在大规模科学语料上进行训练。
评估微调与冻结嵌入的区别，以及域内词汇表的影响。
展示SciBert在多样的科学NLP任务上取得改进和新的SOTA。

提出的方法

采用Bert结构并为科学文本设计两步预测目标进行预训练。
使用SentencePiece构建SciVocab，创建30K域内词汇表。
在1.14M篇Semantic Scholar论文（3.17B token）上对SciBert进行全文本训练。
在多项任务上评估大写/小写版本以及BaseVocab/SciVocab变体。
微调或冻结嵌入，并比较架构以评估域内预训练的收益。
使用dropout、Adam优化和斜三角学习率调度；以标准指标进行评估。

实验结果

研究问题

RQ1域内的科学文本预训练是否对科学NLP任务的性能优于通用BERT？
RQ2在下游任务中，使用域内SciVocab相对于原始BaseVocab的影响如何？
RQ3在冻结嵌入的前提下，任务特定架构是否具备与对SciBert进行全微调的竞争力？
RQ4与以往SOTA相比，SciBert在生物医学、计算机科学和多领域数据集上的表现如何？

主要发现

SciBert在科学任务上通过微调相较BERT-Base提升了+2.11 F1，未微调提升了+2.43 F1（在各数据集上取平均）。
SciBert在若干任务上达到新的SOTA，尤其在生物医学和计算机科学领域。
相较于BioBert和其他领域模型，SciBert在BC5CDR、ChemProt、ACL-ARC和SciCite等多个数据集上表现具有竞争力或优越性。
大多数领域中，SciBert的微调结果超过冻结嵌入的基线；微调带来最大的提升。
使用域内SciVocab相较BaseVocab带来适度的额外提升（平均+0.60 F1），表明语料预训练是主要收益来源。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。