Skip to main content
QUICK REVIEW

[論文レビュー] SciFive: a text-to-text transformer model for biomedical literature

Long Phan, James Anibal|arXiv (Cornell University)|May 28, 2021
Topic Modeling参考文献 16被引用数 94
ひとこと要約

SciFiveは、大規模な生物医学コーパス(C4、PubMed、PMC)で事前学習されたドメイン特化のT5ベースモデルで、NER、関係抽出、自然言語推論、特にQAを含む生物医学NLPタスク全体で最先端またはほぼ最先端の成果を達成します。長文生成タスクにおいても高い性能を示します。

ABSTRACT

In this report, we introduce SciFive, a domain-specific T5 model that has been pre-trained on large biomedical corpora. Our model outperforms the current SOTA methods (i.e. BERT, BioBERT, Base T5) on tasks in named entity relation, relation extraction, natural language inference, and question-answering. We show that text-generation methods have significant potential in a broad array of biomedical NLP tasks, particularly those requiring longer, more complex outputs. Our results support the exploration of more difficult text generation tasks and the development of new methods in this area

研究の動機と目的

  • 密度の高い生物医学言語で訓練された言語モデルが文献のマイニングと分析を支援する必要性を動機づける。
  • SciFiveを提案する。生物医学コーパスで事前学習されたドメイン適応のT5モデルで、テキスト対テキストの生物医学タスクを可能にする。
  • 従来のBERTベースおよびT5ベースのベースラインと比較して、NER、RE、NLI、文書分類、QAタスクでのSciFiveの性能優位性を実証する。

提案手法

  • T5のシーケンスツーシーケンスフレームワークを採用し、テキスト生成タスクを可能にするために、そのアーキテクチャと事前学習目的(スパンベースマスキング)を維持する。
  • SciFiveを基礎T5ウェイトから、生物医学コーパスの組み合わせ(C4、PubMed abstracts、PMC full text)で最大1.2Mステップまで事前学習する。
  • すべてのタスクをテキスト対テキストの問題として表現し、多タスクファインチューニング用のタスク固有のプロンプトトークンを用いる。
  • SentencePieceトークン化を用いて、生物医学テキストに適したサブワード語彙を構築する。
  • 5つの生物医学NLPタスクカテゴリ(NER、RE、NLI、文書分類、QA)で、マルチタスクとシングルタスクの設定の両方でSciFiveをファインチューニングする。
  • ベンチマークデータセットで評価し、SOTA手法(BioBERT、BlueBERT、BERT、T5)と比較する。

実験結果

リサーチクエスチョン

  • RQ1生物医学コーパスで訓練された統一的なテキスト対テキストトランスフォーマーは、標準的な生物医学NLPタスクでBERTベースのモデルを上回ることができるか。
  • RQ2SciFiveは、QAや要約などの長い出力生成タスクにおいて、以前のモデルと比較して競争力のあるまたは優れた結果を提供するか。
  • RQ3異なる生物医学コーパス(C4、PubMed、PMC)が、タスク全体でのSciFiveの性能に与える影響はどのようか。
  • RQ4テキスト対テキストフレームワークを使用する場合、NERや関連する生物医学タスクに対してマルチタスクファインチューニングは有益か。
  • RQ5BioASQの質問応答を、厳密な精度評価ではなく寛容な評価で行った場合、BioBERTとT5と比較してSciFiveの性能はどうか。

主な発見

  • SciFiveは、7つのNERタスク中3つ、2つのREタスク中2つ、1つのNLIタスク中1つで最先端の結果を達成。
  • SciFiveは、すべてのBioASQ QAタスクを、専門家評価における寛容な精度で最先端の結果を達成。
  • SciFiveはQAで強い性能を示し、生成を重視するタスクでしばしばBioBERTを上回り、T5や他のベースラインと競合または上回ることが多い。
  • SciFiveはHoC文書分類タスクでほぼSOTA性能を提供し、生成能力と並んで競争力のある文書レベル分類を示す。
  • PubMed+PMCコーパス構成は、他のコーパス組み合わせを常に上回るわけではなく、最適な生物医学コーパスの混合のさらなる研究が必要であることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。