QUICK REVIEW

[論文レビュー] SciBERT: A Pretrained Language Model for Scientific Text

Iz Beltagy, Kyle Lo|arXiv (Cornell University)|Mar 26, 2019

Topic Modeling参考文献 27被引用数 48

ひとこと要約

SciBertは大規模な科学文献コーパスで事前学習を行い、ドメイン固有の語彙を用いることでBERT-Baseを上回り、複数の科学NLPタスクで新たなSOTAを達成する。SciBertのファインチューニングは、凍結埋め込みを使うより一般的により良い結果を生む。

ABSTRACT

Obtaining large-scale annotated data for NLP tasks in the scientific domain is challenging and expensive. We release SciBERT, a pretrained language model based on BERT (Devlin et al., 2018) to address the lack of high-quality, large-scale labeled scientific data. SciBERT leverages unsupervised pretraining on a large multi-domain corpus of scientific publications to improve performance on downstream scientific NLP tasks. We evaluate on a suite of tasks including sequence tagging, sentence classification and dependency parsing, with datasets from a variety of scientific domains. We demonstrate statistically significant improvements over BERT and achieve new state-of-the-art results on several of these tasks. The code and pretrained models are available at https://github.com/allenai/scibert/.

研究の動機と目的

高品質な学習データが限られていることから、ドメイン特化の事前学習の必要性を動機づける。
大規模な科学文献コーパスで訓練されたBertベースのモデルとしてSciBertを提案する。
ファインチューニングと凍結埋め込みの比較、及びドメイン内語彙の影響を評価する。
SciBertが多様な科学NLPタスクで改善と新たなSOTAを達成することを示す。

提案手法

科学文献の事前学習において、二語予測目的を用いたBertアーキテクチャを採用する。
SentencePieceを用いてSciVocabを構築し、30Kのドメイン内語彙を作成する。
全テキストを用いて1.14M件のSemantic Scholar論文（3.17Bトークン）でSciBertを訓練する。
複数タスクにわたり、キャピタライズ有無/casedとuncased、BaseVocabとSciVocabの両方のバリアントを評価する。
埋め込みをファインチューニングするか凍結するかを選択し、ドメイン内事前学習の利点を評価するためにアーキテクチャを比較する。
Dropout、Adam最適化、傾斜三角学習率スケジュールを用い、標準指標で評価する。

実験結果

リサーチクエスチョン

RQ1科学文書のドメイン内事前学習は、科学NLPタスクで一般的なBERTより性能を向上させるのか？
RQ2下流タスクにおけるドメイン内SciVocabと元のBaseVocabの使用の影響は？
RQ3凍結埋込の上に置かれたタスク特有のアーキテクチャは、SciBertの全面的なファインチューニングと競争力があるか？
RQ4SciBertは生物医学、計算機科学、及び多分野データセットで、従来のSOTAと比較してどのように性能を発揮するか？

主な発見

SciBertは科学タスクで、ファインチューニング時に+2.11 F1、凍結埋め込み時には+2.43 F1（データセット間の平均）でBERT-Baseを上回る。
SciBertは生物医学および計算機科学領域を中心に、いくつかのタスクで新しいSOTAを達成する。
BioBertおよび他のドメインモデルと比較して、SciBertはBC5CDR、ChemProt、ACL-ARC、SciCiteなどの複数データセットで競合的または優れた性能を示す。
最終平均では、ほとんどの分野でSciBertのファインチューニング結果がベースラインより凍結埋め込みより優れており、ファインチューニングが最大の改善をもたらす。
ドメイン内SciVocabの使用はBaseVocabより平均+0.60 F1の小さな追加利益をもたらし、コーパス事前学習が大半の利益を駆動していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。