Skip to main content
QUICK REVIEW

[論文レビュー] Clinical Concept Extraction with Contextual Word Embedding

Henghui Zhu, Ioannis Ch. Paschalidis|arXiv (Cornell University)|Oct 24, 2018
Topic Modeling参考文献 19被引用数 41
ひとこと要約

著者らは臨床領域データでドメイン特化型の ELMo モデルを訓練し、臨床概念抽出には BiLSTM-CRF を用いて、2010 i2b2/VA データセットで最先端の F1 を達成した。

ABSTRACT

Automatic extraction of clinical concepts is an essential step for turning the unstructured data within a clinical note into structured and actionable information. In this work, we propose a clinical concept extraction model for automatic annotation of clinical problems, treatments, and tests in clinical notes utilizing domain-specific contextual word embedding. A contextual word embedding model is first trained on a corpus with a mixture of clinical reports and relevant Wikipedia pages in the clinical domain. Next, a bidirectional LSTM-CRF model is trained for clinical concept extraction using the contextual word embedding model. We tested our proposed model on the I2B2 2010 challenge dataset. Our proposed model achieved the best performance among reported baseline models and outperformed the state-of-the-art models by 3.4% in terms of F1-score.

研究の動機と目的

  • 臨床ノートからの問題・治療・検査といった臨床概念を自動抽出する動機づけ。
  • 臨床領域のコーパスで訓練された文脈的語彙埋め込みを活用して、ラベル付きデータの不足に対処する。
  • ドメイン特化型 ELMo 埋め込みと BiLSTM-CRF を組み合わせた臨床テキストの固有表現抽出モデルを提案する。
  • 2010 i2b2/VA データセットで性能向上を示し、最先端のベースラインを上回ることを評価する。

提案手法

  • 混合臨床コーパス(臨床報告と SNOMED CT 関連 Wikipedia ページ、さらに MIMIC-III の退院要約と放射線報告)上でドメイン特化型 ELMo モデルを訓練する。
  • 文字-CNN 単語埋め込み層と ELMo 内の 2 層の bi-LSTM を用いて文脈化されたトークン表現を生成する。
  • BIO tagging を用いた臨床概念抽出に、ELMo 表現を 2 層の Bidirectional LSTM-CRF と統合する。
  • NER 訓練中に ELMo のパラメータを固定しつつ、ELMo ベースの特徴の集約ウェイトとスケーリングパラメータを学習する。
  • Adam、ドロップアウト、および 10 試行の ELMo 訓練に続けて NER モデルを 200 エポック訓練する。

実験結果

リサーチクエスチョン

  • RQ1ドメイン特化型の文脈語埋め込みは一般領域の埋め込みより臨床概念抽出の性能を向上させるか。
  • RQ2臨床領域データで訓練した ELMo モデルと general-domain コーパスを用いた場合、i2b2/VA 概念抽出にどのような影響があるか。
  • RQ3提案する ELMo+BiLSTM-CRF モデルは 2010 i2b2/VA データセットで最先端ベースラインとどう比較されるか。

主な発見

手法適合率再現率F1
Distributional semantics CRF [ 3 ] *85.6082.0083.70
Hidden semi-Markov model [ 2 ] *86.8883.6485.23
Truecasing CRFSuite [ 4 ]80.8371.4775.86
CliNER [ 5 ]79.581.280.0
Binarized neural embedding CRF [ 23 ]85.1080.6082.80
Glove-BiLSTM-CRF [ 6 ]84.3683.4183.88
CliNER 2.0 [ 7 ]84.083.683.8
Att-BiLSTM-CRF + Transfer [ 8 ]86.2785.1585.71
ELMo(General) + BiLSTM-CRF (Single) **83.26±0.2581.84±0.2282.54±0.14
ELMo(Clinical) + BiLSTM-CRF (Single) **87.44±0.2786.25±0.2686.84±0.16
ELMo(Clinical) + BiLSTM-CRF (Ensemble)89.3487.8788.60
  • ドメイン特化型 ELMo(臨床) + BiLSTM-CRF は、一般領域の ELMo を含む他の手法よりも i2b2/VA での F1 が高い。
  • Ensemble ELMo(Clinical) + BiLSTM-CRF は F1=88.60、 precision=89.34、 recall=87.87 を達成。
  • 最も高性能なモデル(ELMo Clinical + BiLSTM-CRF Ensemble)は、従来の最先端を 3.4% の F1 で上回る。
  • ドメイン特化型言語モデルの訓練は、臨床 NER タスクで高性能を得るために不可欠である。
  • モデルは問題(問題)、治療(治療)、検査(検査)の 3 種類のエンティティに対して一貫して性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。