QUICK REVIEW

[論文レビュー] Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets

Yifan Peng, Shankai Yan|arXiv (Cornell University)|Jun 13, 2019

Topic Modeling参考文献 39被引用数 70

ひとこと要約

tldr: BLUEベンチマークは、ten biomedical/clinical datasets across five tasks でBERTとELMoを評価し、PubMed abstractsとMIMIC-III臨床ノートで事前学習したBERTモデルが全体的に最も強い性能を示すことを発見し、バイオメディシンにおけるジャンル横断的事前学習の価値を強調する。

ABSTRACT

Inspired by the success of the General Language Understanding Evaluation benchmark, we introduce the Biomedical Language Understanding Evaluation (BLUE) benchmark to facilitate research in the development of pre-training language representations in the biomedicine domain. The benchmark consists of five tasks with ten datasets that cover both biomedical and clinical texts with different dataset sizes and difficulties. We also evaluate several baselines based on BERT and ELMo and find that the BERT model pre-trained on PubMed abstracts and MIMIC-III clinical notes achieves the best results. We make the datasets, pre-trained models, and codes publicly available at https://github.com/ncbi-nlp/BLUE_Benchmark.

研究の動機と目的

生物医学および臨床領域の5つのタスクを含むBiomedical Language Understanding Evaluation (BLUE)ベンチマークを導入する。
BERTとELMoに基づくベースラインモデルを評価し、強力な生物医学言語表現を確立する。
テキストジャンルを跨る事前学習が下流の生物医学NLPタスクに与える影響を示す。

提案手法

BLUEを構築する：biomedical literatureとclinical notesにまたがる ten のコーパスを用いた5つのタスク。
PubMed abstractsとMIMIC-III臨床ノートでBERTを事前学習する（PubMed+MIMIC-IIIの組み合わせも含む）。
各BLUEタスクでBERTモデルを微調整し、タスク固有の入力形式を用いる（例：類似度には文のペア、NERにはBIOタグ付け）。
PubMed abstractsで事前学習したELMoベースラインと比較する。
公的に利用可能なデータセット、事前学習済みモデル、および公正なベンチマークのためのコードを提供する。

実験結果

リサーチクエスチョン

RQ1多様な生物医学および臨床NLPタスクにおいて、BERTベースおよびELMOベースの表現はどのように機能するか？
RQ2複数のテキストジャンル（生物医学と臨床）での事前学習は、単一ジャンルの事前学習と比較して性能を向上させるか？
RQ3どのタスクタイプ（NER、関係抽出、文の類似性、文書分類、推論）が、生物医学における文脈化言語モデルから最も利益を得るか？

主な発見

PubMed abstractsとMIMIC-IIIで事前学習したBERTモデルがBLUEタスク全体で最良の結果を達成する。
PubMed+MIMIC-IIIによる事前学習を組み込んだBERTは、一般に単一ジャンルの事前学習を上回り、ジャンル横断的転移学習の利点を強調する。
Base-sizeのBERTモデルは、データサイズと文の長さの要因により、複数のタスクでLarge-sizeモデルを上回ることが多い。
ELMoベースラインはほとんどのタスクで最良のBERT構成に遅れを取っており、生物医学における現代的な文脈化トランスフォーマーの利点を浮き彫りにしている。
文の類似性、文書分類、そしていくつかのNERタスクでは、BERT-Base(P+M)またはBERT-Large(P)がデータセット特性（例：平均文長）に結びつく強い性能変動を示す。
The BLUE benchmark provides extensive code and pretrained models to facilitate fair comparisons in biomedical NLP.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。