QUICK REVIEW

[論文レビュー] SciBERT: A Pretrained Language Model for Scientific Text

Iz Beltagy, Kyle Lo|arXiv (Cornell University)|Mar 26, 2019

Topic Modeling参考文献 27被引用数 48

ひとこと要約

SciBertは大規模な科学文献コーパスで事前学習を行い、ドメイン固有の語彙を用いることでBERT-Baseを上回り、複数の科学NLPタスクで新たなSOTAを達成する。SciBertのファインチューニングは、凍結埋め込みを使うより一般的により良い結果を生む。

ABSTRACT

Obtaining large-scale annotated data for NLP tasks in the scientific domain is challenging and expensive. We release SciBERT, a pretrained language model based on BERT (Devlin et al., 2018) to address the lack of high-quality, large-scale labeled scientific data. SciBERT leverages unsupervised pretraining on a large multi-domain corpus of scientific publications to improve performance on downstream scientific NLP tasks. We evaluate on a suite of tasks including sequence tagging, sentence classification and dependency parsing, with datasets from a variety of scientific domains. We demonstrate statistically significant improvements over BERT and achieve new state-of-the-art results on several of these tasks. The code and pretrained models are available at https://github.com/allenai/scibert/.

研究の動機と目的

高品質な学習データが限られていることから、ドメイン特化の事前学習の必要性を動機づける。
大規模な科学文献コーパスで訓練されたBertベースのモデルとしてSciBertを提案する。
ファインチューニングと凍結埋め込みの比較、及びドメイン内語彙の影響を評価する。
SciBertが多様な科学NLPタスクで改善と新たなSOTAを達成することを示す。

提案手法

科学文献の事前学習において、二語予測目的を用いたBertアーキテクチャを採用する。
SentencePieceを用いてSciVocabを構築し、30Kのドメイン内語彙を作成する。
全テキストを用いて1.14M件のSemantic Scholar論文（3.17Bトークン）でSciBertを訓練する。
複数タスクにわたり、キャピタライズ有無/casedとuncased、BaseVocabとSciVocabの両方のバリアントを評価する。
埋め込みをファインチューニングするか凍結するかを選択し、ドメイン内事前学習の利点を評価するためにアーキテクチャを比較する。
Dropout、Adam最適化、傾斜三角学習率スケジュールを用い、標準指標で評価する。

実験結果

リサーチクエスチョン

RQ1科学文書のドメイン内事前学習は、科学NLPタスクで一般的なBERTより性能を向上させるのか？
RQ2下流タスクにおけるドメイン内SciVocabと元のBaseVocabの使用の影響は？
RQ3凍結埋込の上に置かれたタスク特有のアーキテクチャは、SciBertの全面的なファインチューニングと競争力があるか？
RQ4SciBertは生物医学、計算機科学、及び多分野データセットで、従来のSOTAと比較してどのように性能を発揮するか？

主な発見

分野	タスク	データセット	SOTA	Bert-Base 凍結	Bert-Base ファインチューニング	SciBert 凍結	SciBert ファインチューニング
Bio	NER	BC5CDR Li et al. (2016)	88.85	85.08	86.72	88.73	90.01
Bio	NER	JNLPBA Collier and Kim (2004)	78.58	74.05	76.09	75.77	77.28
Bio	NER	NCBI-disease Dogan et al. (2014)	89.36	84.06	86.88	86.39	88.57
Bio	PICO	EBM-NLP Nye et al. (2018)	66.30	61.44	71.53	68.30	72.28
Bio	DEP	GENIA LAS Kim et al. (2003)	91.92	90.22	90.33	90.36	90.43
Bio	DEP	GENIA UAS Kim et al. (2003)	92.84	91.84	91.89	92.00	91.99
Bio	REL	ChemProte Kringelum et al. (2016)	76.68	68.21	79.14	75.03	83.64
CS	NER	SciERC Luan et al. (2018)	64.20	63.58	65.24	65.77	67.57
CS	REL	SciERC Luan et al. (2018)	n/a	72.74	78.71	75.25	79.97
CS	CLS	ACL-ARC Jurgens et al. (2018)	67.9	62.04	63.91	60.74	70.98
Multi	CLS	Paper Field (Microsoft Academic Graph)	n/a	63.64	65.37	64.38	65.71
Multi	CLS	SciCite Cohan et al. (2019)	84.0	84.31	84.85	85.42	85.49
Average	-	-	73.58	77.16	76.01	79.27

SciBertは科学タスクで、ファインチューニング時に+2.11 F1、凍結埋め込み時には+2.43 F1（データセット間の平均）でBERT-Baseを上回る。
SciBertは生物医学および計算機科学領域を中心に、いくつかのタスクで新しいSOTAを達成する。
BioBertおよび他のドメインモデルと比較して、SciBertはBC5CDR、ChemProt、ACL-ARC、SciCiteなどの複数データセットで競合的または優れた性能を示す。
最終平均では、ほとんどの分野でSciBertのファインチューニング結果がベースラインより凍結埋め込みより優れており、ファインチューニングが最大の改善をもたらす。
ドメイン内SciVocabの使用はBaseVocabより平均+0.60 F1の小さな追加利益をもたらし、コーパス事前学習が大半の利益を駆動していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。