Skip to main content
QUICK REVIEW

[論文レビュー] Effective Use of Bidirectional Language Modeling for Transfer Learning in Biomedical Named Entity Recognition

Devendra Singh Sachan, Pengtao Xie|arXiv (Cornell University)|Nov 21, 2017
Topic Modeling参考文献 31被引用数 32
ひとこと要約

本稿では、ラベルなし医療テキスト上で事前学習された双方向言語モデル(BiLM)の重みを用いて、生物医薬品名前認識(NER)用モデルを初期化する転移学習手法を提案する。この手法は、4つのベンチマークデータセットでF1スコアを顕著に向上させ、収束を加速させ、目標性能に達成するためのデータ量を削減する。

ABSTRACT

Biomedical named entity recognition (NER) is a fundamental task in text mining of medical documents and has many applications. Deep learning based approaches to this task have been gaining increasing attention in recent years as their parameters can be learned end-to-end without the need for hand-engineered features. However, these approaches rely on high-quality labeled data, which is expensive to obtain. To address this issue, we investigate how to use unlabeled text data to improve the performance of NER models. Specifically, we train a bidirectional language model (BiLM) on unlabeled data and transfer its weights to "pretrain" an NER model with the same architecture as the BiLM, which results in a better parameter initialization of the NER model. We evaluate our approach on four benchmark datasets for biomedical NER and show that it leads to a substantial improvement in the F1 scores compared with the state-of-the-art approaches. We also show that BiLM weight transfer leads to a faster model training and the pretrained model requires fewer training examples to achieve a particular F1 score.

研究の動機と目的

  • 生物医薬品NERにおけるラベル付きデータの限界に起因する高精度なモデル学習の困難を解決すること。
  • 低リソースな生物医薬品NER環境におけるモデルの汎化性能の向上と過学習の低減を図ること。
  • 双方向言語モデルによる自己教師あり事前学習が、ランダム重みよりも優れた初期化戦略であるかを検討すること。
  • BiLM事前学習が、既知および未知の生物医薬品エンティティの両方で性能向上をもたらすかどうかを評価すること。
  • 微調整段階におけるNERモデルの収束速度の向上と、データ依存性の低減を実証すること。

提案手法

  • 大規模なラベルなし生物医薬品テキスト上で、左右両方向の言語モデル学習目的を用いて双方向言語モデル(BiLM)を事前学習する。
  • NERモデルのアーキテクチャは、CRF層を除き、BiLMのエンコーダ部品(BiLSTM、文字特徴用CNN、単語埋め込み)を模倣する。
  • 事前学習済みBiLMの重みを、NERモデルのエンコーダ層に転送することで、文脈的言語理解から強力なインダクティブバイアスを提供する。
  • CRF層を用いたシーケンスラベリングにより、ラベル付き生物医薬品NERデータ上でNERモデルをエンドツーエンドで微調整する。
  • 文字レベルのCNNを用いてサブワード特徴を抽出し、単語埋め込みはPubMed由来の事前学習から初期化する。
  • 同じモデルアーキテクチャを事前学習と微調整の両方で使用することで、直接的な重み転送を可能にする。

実験結果

リサーチクエスチョン

  • RQ1双方向言語モデルによる自己教師あり事前学習は、低リソースな生物医薬品NERデータセットにおいて性能を向上させ得るか?
  • RQ2BiLMに基づく重み転送は、NERモデルの微調整段階で収束を早めるか?
  • RQ3事前学習によって、目標F1スコアに到達するためのラベル付き例の数をどの程度削減できるか?
  • RQ4ベースラインモデルと比較して、本手法はレアまたは長い名前の生物医薬品エンティティ(例:「非常に長い鎖アシルCoA脱水素酵素欠損症」)に対してどの程度優れた性能を示すか?
  • RQ5事前学習は、生物医薬品テキストにおける未知の疾患エンティティのリコールを向上させるか?

主な発見

  • BiLM事前学習済みNERモデルは、4つのベンチマーク生物医薬品NERデータセットで最先端のF1スコアを達成し、先行手法を上回る性能を示した。
  • ランダム初期化のモデルと比較して、微調整段階での収束が顕著に速くなった。
  • 事前学習済みモデルは、ランダム初期化モデルと比較して、目標F1スコアに到達するためのラベル付き学習例が少ない状態でも性能を達成した。
  • 本手法は、既知および未知の疾患エンティティの両方でリコールを向上させ、特に「非常に長い鎖アシルCoA脱水素酵素欠損症」のような長大または曖昧な名前を持つエンティティに対して顕著な利益をもたらした。
  • 本手法は、生物医薬品テキストに一般的に見られる言語的変異や複雑なエンティティ名に対しても、頑健性を示した。
  • BiLM重みの転送により強力なインダクティブバイアスが得られ、低リソースNERタスクにおける過学習の低減と汎化性能の向上が実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。