QUICK REVIEW

[論文レビュー] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission

Kexin Huang, Jaan Altosaar|arXiv (Cornell University)|Apr 10, 2019

Machine Learning in Healthcare参考文献 33被引用数 612

ひとこと要約

ClinicalBERTは臨床ノート上でBERTを事前学習して臨床テキストの連続的表現を作成し、30日間の入院再入院予測にファインチューニングします。ベースラインを上回り、アテンションによる解釈性を実現します。モデルはトレーニング/評価スクリプトとともにオープンソース化されています。

ABSTRACT

Clinical notes contain information about patients that goes beyond structured data like lab values and medications. However, clinical notes have been underused relative to structured data, because notes are high-dimensional and sparse. This work develops and evaluates representations of clinical notes using bidirectional transformers (ClinicalBERT). ClinicalBERT uncovers high-quality relationships between medical concepts as judged by humans. ClinicalBert outperforms baselines on 30-day hospital readmission prediction using both discharge summaries and the first few days of notes in the intensive care unit. Code and model parameters are available.

研究の動機と目的

臨床データで訓練されたBERTベースのモデルを用いて臨床ノートを効果的に表現できることを示す。
入院中の複数の時点で30日再入院予測におけるClinicalBERTの性能を評価する。
ClinicalBERTが医療概念間の臨床的に意味のある関係を捉えることを示す。
アテンション機構を通じて解釈可能な予測を提供し、再現のためのオープンソース資源を公開する。

提案手法

臨床ノート上でBERTを事前学習し、マスク言語モデルと次文予測の目的でClinicalBERTを作成する。
[CLS]表現を線形分類器とともに用いて再入院予測タスクにClinicalBERTをファインチューニングする。
長く多数のノートを、シーケンスを連結しサブシーケンス予測を集計して処理する（最大/平均とスケーリング係数を用いる）。
臨床的に関連する指標で評価する：AUROC、AUPRC、RP80（精度80%時のRecall）。
Bag-of-Words、Word2Vecを用いたbi-LSTM、臨床外テキストで事前学習された標準のBERTと比較し、解釈性のためにアテンションを分析する。
ClinicalBERTのパラメータとトレーニング/評価スクリプトをオープンソース化する。

実験結果

リサーチクエスチョン

RQ1臨床ノートを事前学習に用いたBERTベースのモデルは、標準的な言語モデルと比較して30日再入院予測を改善できるか？
RQ2臨床ノートは、入院の異なる時点（早期ノート vs 病棟出院サマリ）で再入院予測の予測信号を提供するか？
RQ3ClinicalBERTのアテンション機構は解釈可能で、臨床的に関連する用語を示唆しているか？
RQ4長い臨床ノートをモデル化することが予測性能と解釈性に与える影響は何か？

主な発見

モデル	AUROC	AUPRC	RP80
ClinicalBERT	0.714 b1 0.018	0.701 b1 0.021	0.242 b1 0.111
Bag-of-words	0.684 b1 0.025	0.674 b1 0.027	0.217 b1 0.119
bi-LSTM	0.694 b1 0.025	0.686 b1 0.029	0.223 b1 0.103
bert	0.692 b1 0.019	0.678 b1 0.016	0.172 b1 0.101

ClinicalBERTは、退院サマリと早期入院ノートの両方で30日再入院予測においてベースラインを上回る。
退院サマリでは、ClinicalBERTはAUROC 0.714 ±0.018、AUPRC 0.701 ±0.021、RP80 0.242 ±0.111を達成し、Bag-of-Words、bi-LSTM、標準BERTのベースラインを上回る。
ClinicalBERTの埋め込みは、Word2VecとFastTextより臨床用語の類似度の医師判断と高く相関する。
ClinicalBERTのアテンション重みは、再入院を予測する用語を強調することで解釈を可能にする（例：慢性/急性の心臓関連用語）。
モデルは前学習および微調整のパラメータを含むオープンソースで、再現と他の臨床タスクへの適用を容易にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。