Skip to main content
QUICK REVIEW

[論文レビュー] Publicly Available Clinical BERT Embeddings

Emily Alsentzer, John R. Murphy|arXiv (Cornell University)|Apr 6, 2019
Topic Modeling参考文献 20被引用数 720
ひとこと要約

この論文は臨床ドメインのBERTモデル(Clinical BERTおよびDischarge Summary BERT)をMIMICノートで事前学習し、公表しており、MedNLIと i2b2 NERタスクで一般BERTおよび BioBERTより改善を示すが、個人識別(de-identification)タスクでは改善を示さない。

ABSTRACT

Contextual word embedding models such as ELMo (Peters et al., 2018) and BERT (Devlin et al., 2018) have dramatically improved performance for many natural language processing (NLP) tasks in recent months. However, these models have been minimally explored on specialty corpora, such as clinical text; moreover, in the clinical domain, no publicly-available pre-trained BERT models yet exist. In this work, we address this need by exploring and releasing BERT models for clinical text: one for generic clinical text and another for discharge summaries specifically. We demonstrate that using a domain-specific model yields performance improvements on three common clinical NLP tasks as compared to nonspecific embeddings. These domain-specific models are not as performant on two clinical de-identification tasks, and argue that this is a natural consequence of the differences between de-identified source text and synthetically non de-identified task text.

研究の動機と目的

  • 臨床テキストにおけるドメイン特化の文脈埋め込みの必要性を、一般文書・生物医学テキストとの差異から動機づける。
  • MIMICノート上でClinical BERTモデルを事前学習し、公表する(退院サマリ variantを含む)。
  • 標準的な臨床NLPタスクで臨床BERTモデルを評価し、一般BERTおよびBioBERTと比較して利得を測定する。

提案手法

  • MIMIC臨床テキスト上で2つのBERT variantsを訓練: Clinical BERT(全ノート)と Discharge Summary BERT(退院サマリ)。
  • 事前学習済みモデルを下流タスクで微調整し、BERT出力の上に単一の線形分類器を置く。
  • MedNLIおよび4つのi2b2 NERタスク、さらに2つのde-identificationタスクで評価し、BERTおよびBioBERTベースラインと比較。
  • 標準的なBERT訓練/設定を使用し、事前学習の詳細は付録(例: 配列長、ステップ)で提供。
  • 定量的指標(精度、厳密F1)と定性的埋め込み分析(最近傍)を報告。

実験結果

リサーチクエスチョン

  • RQ1臨床で訓練されたBERTモデルは、一般ドメインBERTおよびBioBERTと比較して臨床NLPタスクの性能を向上させるか?
  • RQ2ノート種別特有の訓練(全ノート vs 退院サマリ)がタスク特有の利得を生むか?
  • RQ3臨床BERT埋め込みは非de-identificationタスクには有効で、データ分布の違いのためde-identificationタスクには効果が薄いか?
  • RQ4臨床BERTとBioBERTの臨床文脈での定性的な違いは何か?

主な発見

モデルMedNLI(Accuracy)i2b2 2006(Exact F1)i2b2 2010(Exact F1)i2b2 2012(Exact F1)i2b2 2014(Exact F1)
BERT77.6%93.983.575.992.8
BioBERT80.8%94.886.578.993.0
Clinical BERT80.8%91.586.478.592.6
Discharge Summary BERT80.6%91.986.478.492.8
Bio+Clinical BERT82.7%94.787.278.992.5
Bio+Discharge Summary BERT82.7%94.887.878.992.7
  • Clinical BERTは一般BERTおよびBioBERTより臨床タスクのいくつかで改善を示し、MedNLIで新たなstate-of-the-art(82.7% accuracy)を達成。
  • i2b2 2010および2012タスクではClinical BERTは良好だが、常にBioBERTより優れているとは限らず、Bio+Clinical BERTがトップ結果を出すことが多い。
  • Discharge Summary BERTおよびノート種別特有の訓練は、いくつかのタスクで追加の利得をもたらす。
  • Clinical BERTは二つのde-identificationタスクで改善を示さず、脱識別データとMIMIC由来訓練コーパスのドメインシフトが原因と考えられる。
  • 定性的分析はClinical BERTがBioBERTより臨床用語連想をより cohesive に形成することを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。