Skip to main content
QUICK REVIEW

[論文レビュー] SciBERT: A Pretrained Language Model for Scientific Text

Iz Beltagy, Kyle Lo|arXiv (Cornell University)|Mar 26, 2019
Topic Modeling参考文献 27被引用数 48
ひとこと要約

SciBertは大規模な科学文献コーパスで事前学習を行い、ドメイン固有の語彙を用いることでBERT-Baseを上回り、複数の科学NLPタスクで新たなSOTAを達成する。SciBertのファインチューニングは、凍結埋め込みを使うより一般的により良い結果を生む。

ABSTRACT

Obtaining large-scale annotated data for NLP tasks in the scientific domain is challenging and expensive. We release SciBERT, a pretrained language model based on BERT (Devlin et al., 2018) to address the lack of high-quality, large-scale labeled scientific data. SciBERT leverages unsupervised pretraining on a large multi-domain corpus of scientific publications to improve performance on downstream scientific NLP tasks. We evaluate on a suite of tasks including sequence tagging, sentence classification and dependency parsing, with datasets from a variety of scientific domains. We demonstrate statistically significant improvements over BERT and achieve new state-of-the-art results on several of these tasks. The code and pretrained models are available at https://github.com/allenai/scibert/.

研究の動機と目的

  • 高品質な学習データが限られていることから、ドメイン特化の事前学習の必要性を動機づける。
  • 大規模な科学文献コーパスで訓練されたBertベースのモデルとしてSciBertを提案する。
  • ファインチューニングと凍結埋め込みの比較、及びドメイン内語彙の影響を評価する。
  • SciBertが多様な科学NLPタスクで改善と新たなSOTAを達成することを示す。

提案手法

  • 科学文献の事前学習において、二語予測目的を用いたBertアーキテクチャを採用する。
  • SentencePieceを用いてSciVocabを構築し、30Kのドメイン内語彙を作成する。
  • 全テキストを用いて1.14M件のSemantic Scholar論文(3.17Bトークン)でSciBertを訓練する。
  • 複数タスクにわたり、キャピタライズ有無/casedとuncased、BaseVocabとSciVocabの両方のバリアントを評価する。
  • 埋め込みをファインチューニングするか凍結するかを選択し、ドメイン内事前学習の利点を評価するためにアーキテクチャを比較する。
  • Dropout、Adam最適化、傾斜三角学習率スケジュールを用い、標準指標で評価する。

実験結果

リサーチクエスチョン

  • RQ1科学文書のドメイン内事前学習は、科学NLPタスクで一般的なBERTより性能を向上させるのか?
  • RQ2下流タスクにおけるドメイン内SciVocabと元のBaseVocabの使用の影響は?
  • RQ3凍結埋込の上に置かれたタスク特有のアーキテクチャは、SciBertの全面的なファインチューニングと競争力があるか?
  • RQ4SciBertは生物医学、計算機科学、及び多分野データセットで、従来のSOTAと比較してどのように性能を発揮するか?

主な発見

分野タスクデータセットSOTABert-Base 凍結Bert-Base ファインチューニングSciBert 凍結SciBert ファインチューニング
BioNERBC5CDR Li et al. (2016)88.8585.0886.7288.7390.01
BioNERJNLPBA Collier and Kim (2004)78.5874.0576.0975.7777.28
BioNERNCBI-disease Dogan et al. (2014)89.3684.0686.8886.3988.57
BioPICOEBM-NLP Nye et al. (2018)66.3061.4471.5368.3072.28
BioDEPGENIA LAS Kim et al. (2003)91.9290.2290.3390.3690.43
BioDEPGENIA UAS Kim et al. (2003)92.8491.8491.8992.0091.99
BioRELChemProte Kringelum et al. (2016)76.6868.2179.1475.0383.64
CSNERSciERC Luan et al. (2018)64.2063.5865.2465.7767.57
CSRELSciERC Luan et al. (2018)n/a72.7478.7175.2579.97
CSCLSACL-ARC Jurgens et al. (2018)67.962.0463.9160.7470.98
MultiCLSPaper Field (Microsoft Academic Graph)n/a63.6465.3764.3865.71
MultiCLSSciCite Cohan et al. (2019)84.084.3184.8585.4285.49
Average--73.5877.1676.0179.27
  • SciBertは科学タスクで、ファインチューニング時に+2.11 F1、凍結埋め込み時には+2.43 F1(データセット間の平均)でBERT-Baseを上回る。
  • SciBertは生物医学および計算機科学領域を中心に、いくつかのタスクで新しいSOTAを達成する。
  • BioBertおよび他のドメインモデルと比較して、SciBertはBC5CDR、ChemProt、ACL-ARC、SciCiteなどの複数データセットで競合的または優れた性能を示す。
  • 最終平均では、ほとんどの分野でSciBertのファインチューニング結果がベースラインより凍結埋め込みより優れており、ファインチューニングが最大の改善をもたらす。
  • ドメイン内SciVocabの使用はBaseVocabより平均+0.60 F1の小さな追加利益をもたらし、コーパス事前学習が大半の利益を駆動していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。