[論文レビュー] Bioformer: an efficient transformer language model for biomedical text mining
Bioformerは、PubMedBERTにほぼ近い精度を達成しつつ、パラメータを約60%削減し、推論を約2–3倍高速化した、生物医学テキストマイニング用のコンパクトなBERTベースモデルです。
Pretrained language models such as Bidirectional Encoder Representations from Transformers (BERT) have achieved state-of-the-art performance in natural language processing (NLP) tasks. Recently, BERT has been adapted to the biomedical domain. Despite the effectiveness, these models have hundreds of millions of parameters and are computationally expensive when applied to large-scale NLP applications. We hypothesized that the number of parameters of the original BERT can be dramatically reduced with minor impact on performance. In this study, we present Bioformer, a compact BERT model for biomedical text mining. We pretrained two Bioformer models (named <i>Bioformer</i><sub><i>8L</i></sub> and <i>Bioformer</i><sub><i>16L</i></sub>) which reduced the model size by 60% compared to BERT<sub>Base</sub>. Bioformer uses a biomedical vocabulary and was pre-trained from scratch on PubMed abstracts and PubMed Central full-text articles. We thoroughly evaluated the performance of Bioformer as well as existing biomedical BERT models including <i>BioBERT</i> and <i>PubMedBERT</i> on 15 benchmark datasets of four different biomedical NLP tasks: named entity recognition, relation extraction, question answering and document classification. The results show that with 60% fewer parameters, <i>Bioformer</i><sub><i>16L</i></sub> is only 0.1% less accurate than <i>PubMedBERT</i> while <i>Bioformer</i><sub><i>8L</i></sub> is 0.9% less accurate than <i>PubMedBERT</i>. Both <i>Bioformer</i><sub><i>16L</i></sub> and <i>Bioformer</i><sub><i>8L</i></sub> outperformed <i>BioBERT</i><sub><i>Base</i>-v1.1</sub>. In addition, <i>Bioformer</i><sub><i>16L</i></sub> and <i>Bioformer</i><sub><i>8L</i></sub> are 2-3 fold as fast as PubMedBERT/<i>BioBERT</i><sub><i>Base</i>-v1.1</sub>. Bioformer has been successfully deployed to PubTator Central providing gene annotations over 35 million PubMed abstracts and 5 million PubMed Central full-text articles. We make Bioformer publicly available via https://github.com/WGLab/bioformer, including pre-trained models, datasets, and instructions for downstream use.
研究の動機と目的
- 性能を犠牲にせず、生物医学トランスフォーマーのモデルサイズを削減する,
- ドメイン特有の生物医学用語と事前学習データを活用する
- 複数のNLPタスクで既存の生物医学BERTモデルとBioformerを比較評価する
- 大規模な生物医学アノテーションパイプラインへの展開可能性を示す
提案手法
- PubMedの要約とPubMed Centralの全文を用い、生物医学用語を用いた語彙で、Bioformerの2つのバリアント(Bioformer8LとBioformer16L)をゼロから事前学習する
- BERTBaseと比較してパラメータを約60%削減する
- NER、関係抽出、QA、文書分類にまたがる15の生物医学NLPベンチマークで評価する
- 精度と速度の観点でBioBERTおよびPubMedBERTのベースラインと比較する
- 大規模コーパス上で遺伝子アノテーションのPubTator Centralへのデプロイを示す
実験結果
リサーチクエスチョン
- RQ1パラメータ効率の高いBioBERTに似たモデルは、一般的なNLPタスクにおいてベースラインの生物医学BERTと同等の性能を達成できるのだろうか?
- RQ2生物医学テキストマイニングにおけるBioformerのモデルサイズ(パラメータ)と精度のトレードオフは何か?
- RQ3Bioformerのバリアントは大規模な生物医学アノテーションパイプラインで実用的なスピードアップをもたらすか?
- RQ4ドメイン特有の語彙とゼロからの事前学習は、生物医学NLPタスクに有益か?
主な発見
- Bioformer16LとBioformer8Lは、BERTBaseよりパラメータを60%削減しつつ高い性能を維持する
- Bioformer16LはPubMedBERTより精度が0.1%低いだけである
- Bioformer8Lは評価タスクでPubMedBERTより精度が0.9%低い
- 両方のBioformerバリアントはベンチマーク全体でBioBERTBase-v1.1を上回る
- Bioformer16LとBioformer8Lは PubMedBERT/BioBERTBase-v1.1より2–3倍の推論高速化を達成
- Bioformerは大規模なPubMed/PMCコーパスに対する遺伝子アノテーションのPubTator Centralへのデプロイに成功している
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。