Skip to main content
QUICK REVIEW

[論文レビュー] Effective Use of Bidirectional Language Modeling for Medical Named Entity Recognition.

Devendra Singh Sachan, Pengtao Xie|arXiv (Cornell University)|Nov 21, 2017
Topic Modeling被引用数 8
ひとこと要約

この論文では、医療命名エンティティ認識(NER)モデルを事前学習された双方向言語モデル(Bi-LM)の重みで初期化することで、性能と学習効率を向上させる手法を提案する。無作為な初期化と比較して、ラベル付きデータで微調整することで、F1スコアが向上し、収束が速くなり、データ要件も削減される。

ABSTRACT

Biomedical named entity recognition (NER) is a fundamental task in text mining of medical documents and has a lot of applications. Existing approaches for NER require manual feature engineering in order to represent words and its corresponding contextual information. Deep learning based approaches have been gaining increasing attention in recent years as their weight parameters can be learned end-to-end without the need for hand-engineered features. These approaches rely on high-quality labeled data which is expensive to obtain. To address this issue, we investigate how to use widely available unlabeled text data to improve the performance of NER models. Specifically, we train a bidirectional language model (Bi-LM) on unlabeled data and transfer its weights to a NER model with the same architecture as the Bi-LM, which results in a better parameter initialization of the NER model. We evaluate our approach on three datasets for disease NER and show that it leads to a remarkable improvement in F1 score as compared to the model with random parameter initialization. We also show that Bi-LM weight transfer leads to faster model training. In addition, our model requires fewer training examples to achieve a particular F1 score.

研究の動機と目的

  • 深層学習を活用して生物医学的NERにおける手動による特徴工学の依存度を低減すること。
  • 事前学習を用いて無作為な生物医学テキストを活用し、NERの性能を向上させること。
  • 効果的なNERのためのモデル収束を加速し、データ要件を低減すること。
  • Bi-LM重みの転送が疾患NERに与える影響を複数のデータセットで評価すること。

提案手法

  • 大規模な無ラベル生物医学テキスト上で双方向言語モデル(Bi-LM)を事前学習する。
  • 学習されたBi-LMの重みを、同一アーキテクチャを持つNERモデルのエンコーダーに転送して初期化する。
  • ラベル付き疾患NERデータセットで初期化されたNERモデルを微調整する。
  • 無作為初期化されたNERモデルと比較して、性能と学習ダイナミクスを評価する。
  • Bi-LM事前学習とNER微調整の両方で同じモデルアーキテクチャを使用することで、パラメータの互換性を保証する。
  • 一般化性と頑健性を評価するために、3つの疾患NERデータセットで評価を行う。

実験結果

リサーチクエスチョン

  • RQ1無作為な生物医学テキスト上で双方向言語モデルを事前学習することで、下流のNER性能が向上するか?
  • RQ2Bi-LM重みの転送はNER学習中の収束を速くするか?
  • RQ3Bi-LM初期化は、特定のF1スコアに到達するためのラベル付き例の数をどの程度削減できるか?
  • RQ4F1スコアと学習効率の観点から、Bi-LM初期化は無作為初期化と比べてどのように異なるか?

主な発見

  • Bi-LM初期化されたNERモデルは、3つの疾患NERデータセットすべてで無作為初期化と比較して顕著なF1スコアの向上を達成した。
  • Bi-LM初期化を用いたモデル学習は、無作為初期化よりも収束が速かった。
  • 特定のF1スコアに到達するための訓練例の数が削減されたことから、より高いデータ効率性が示された。
  • 複数のデータセットにわたる一貫した性能向上が確認され、ドメインの変動に対しても頑健であることが示された。
  • 事前学習されたBi-LM重みの使用により、より良いパラメータ初期化が実現し、より効果的なエンドツーエンド学習が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。