Skip to main content
QUICK REVIEW

[論文レビュー] SciBERT: A Pretrained Language Model for Scientific Text

Iz Beltagy, Kyle Lo|arXiv (Cornell University)|Mar 26, 2019
Topic Modeling参考文献 27被引用数 48
ひとこと要約

SciBertは大規模な科学文献コーパスで事前学習を行い、ドメイン固有の語彙を用いることでBERT-Baseを上回り、複数の科学NLPタスクで新たなSOTAを達成する。SciBertのファインチューニングは、凍結埋め込みを使うより一般的により良い結果を生む。

ABSTRACT

Obtaining large-scale annotated data for NLP tasks in the scientific domain is challenging and expensive. We release SciBERT, a pretrained language model based on BERT (Devlin et al., 2018) to address the lack of high-quality, large-scale labeled scientific data. SciBERT leverages unsupervised pretraining on a large multi-domain corpus of scientific publications to improve performance on downstream scientific NLP tasks. We evaluate on a suite of tasks including sequence tagging, sentence classification and dependency parsing, with datasets from a variety of scientific domains. We demonstrate statistically significant improvements over BERT and achieve new state-of-the-art results on several of these tasks. The code and pretrained models are available at https://github.com/allenai/scibert/.

研究の動機と目的

  • 高品質な学習データが限られていることから、ドメイン特化の事前学習の必要性を動機づける。
  • 大規模な科学文献コーパスで訓練されたBertベースのモデルとしてSciBertを提案する。
  • ファインチューニングと凍結埋め込みの比較、及びドメイン内語彙の影響を評価する。
  • SciBertが多様な科学NLPタスクで改善と新たなSOTAを達成することを示す。

提案手法

  • 科学文献の事前学習において、二語予測目的を用いたBertアーキテクチャを採用する。
  • SentencePieceを用いてSciVocabを構築し、30Kのドメイン内語彙を作成する。
  • 全テキストを用いて1.14M件のSemantic Scholar論文(3.17Bトークン)でSciBertを訓練する。
  • 複数タスクにわたり、キャピタライズ有無/casedとuncased、BaseVocabとSciVocabの両方のバリアントを評価する。
  • 埋め込みをファインチューニングするか凍結するかを選択し、ドメイン内事前学習の利点を評価するためにアーキテクチャを比較する。
  • Dropout、Adam最適化、傾斜三角学習率スケジュールを用い、標準指標で評価する。

実験結果

リサーチクエスチョン

  • RQ1科学文書のドメイン内事前学習は、科学NLPタスクで一般的なBERTより性能を向上させるのか?
  • RQ2下流タスクにおけるドメイン内SciVocabと元のBaseVocabの使用の影響は?
  • RQ3凍結埋込の上に置かれたタスク特有のアーキテクチャは、SciBertの全面的なファインチューニングと競争力があるか?
  • RQ4SciBertは生物医学、計算機科学、及び多分野データセットで、従来のSOTAと比較してどのように性能を発揮するか?

主な発見

  • SciBertは科学タスクで、ファインチューニング時に+2.11 F1、凍結埋め込み時には+2.43 F1(データセット間の平均)でBERT-Baseを上回る。
  • SciBertは生物医学および計算機科学領域を中心に、いくつかのタスクで新しいSOTAを達成する。
  • BioBertおよび他のドメインモデルと比較して、SciBertはBC5CDR、ChemProt、ACL-ARC、SciCiteなどの複数データセットで競合的または優れた性能を示す。
  • 最終平均では、ほとんどの分野でSciBertのファインチューニング結果がベースラインより凍結埋め込みより優れており、ファインチューニングが最大の改善をもたらす。
  • ドメイン内SciVocabの使用はBaseVocabより平均+0.60 F1の小さな追加利益をもたらし、コーパス事前学習が大半の利益を駆動していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。