[論文レビュー] Natural language processing of MIMIC-III clinical notes for identifying diagnosis and procedures with neural networks
本研究では、120万件の救急外来臨床ノートを含むMIMIC-IIIデータセットに、ULMFiT深層学習モデルを適用し、非構造化テキストからICD-9診断および手術コードを予測する。モデルは診断分類で80.3%、手術分類で80.5%のトップ10正解率を達成し、臨床コード化の自動化と管理的負担の軽減において優れた性能を示した。
Coding diagnosis and procedures in medical records is a crucial process in the healthcare industry, which includes the creation of accurate billings, receiving reimbursements from payers, and creating standardized patient care records. In the United States, Billing and Insurance related activities cost around $471 billion in 2012 which constitutes about 25% of all the U.S hospital spending. In this paper, we report the performance of a natural language processing model that can map clinical notes to medical codes, and predict final diagnosis from unstructured entries of history of present illness, symptoms at the time of admission, etc. Previous studies have demonstrated that deep learning models perform better at such mapping when compared to conventional machine learning models. Therefore, we employed state-of-the-art deep learning method, ULMFiT on the largest emergency department clinical notes dataset MIMIC III which has 1.2M clinical notes to select for the top-10 and top-50 diagnosis and procedure codes. Our models were able to predict the top-10 diagnoses and procedures with 80.3% and 80.5% accuracy, whereas the top-50 ICD-9 codes of diagnosis and procedures are predicted with 70.7% and 63.9% accuracy. Prediction of diagnosis and procedures from unstructured clinical notes benefit human coders to save time, eliminate errors and minimize costs. With promising scores from our present model, the next step would be to deploy this on a small-scale real-world scenario and compare it with human coders as the gold standard. We believe that further research of this approach can create highly accurate predictions that can ease the workflow in a clinical setting.
研究の動機と目的
- 非構造化臨床ノートを標準化されたICD-9診断および手術コードに自動マッピングすること。
- 2012年の米国病院支出の4710億ドルを占めた医療コード化に伴う高い管理コストを低減すること。
- 大規模な臨床ノートデータに対して、特にULMFiTを含む深層学習モデルの臨床コード化タスクにおける性能を評価すること。
- 臨床文書作成および請求プロセスにおけるスピード、正確性、効率の向上を支援するために、人間のコード作成者を支援すること。
提案手法
- 本研究では、120万件の救急外来臨床ノートを含むMIMIC-IIIデータセットに、微調整されたULMFiT転移学習フレームワークを適用した。
- 入院時の現在病歴および症状のテキストを入力として、ICD-9診断および手術コードを予測した。
- 微調整された埋め込み表現と特徴抽出のための微調整手法を用い、シーケンス分類によりトップ10およびトップ50のICD-9コードを予測するようにモデルを学習させた。
- 診断および手術予測のモデル性能を評価するために、トップ1およびトップ50正解率の指標を用いた。
- 限られたラベル付きデータで臨床分野に適応可能な汎用的言語モデルを転用するため、転移学習を活用した。
実験結果
リサーチクエスチョン
- RQ1ULMFiTのような深層学習モデルは、非構造化臨床ノートをICD-9診断および手術コードに効果的にマッピングできるか?
- RQ2ULMFiTの性能は、臨床コード化タスクにおいて従来の機械学習モデルと比べてどうか?
- RQ3診断および手術分類において、トップ10およびトップ50のICD-9コードの予測正確性はどの程度か?
- RQ4このようなモデルを人間のコード作成者と併用することで、コード化に要する時間と誤差率を低減できるか?
主な発見
- モデルは非構造化臨床ノートからの診断コード予測で80.3%のトップ10正解率を達成した。
- 手術コード予測では80.5%のトップ10正解率を達成し、手術コード分類においても優れた性能を示した。
- トップ50予測では、診断コードの正確性は70.7%、手術コードの正確性は63.9%であった。
- これらの結果から、ULMFiTのような深層学習モデルは、人間のコード作成者を支援し、手作業の負担を軽減し、誤差を最小限に抑えるのに顕著に寄与できることが示唆された。
- 本研究は、このようなモデルを実際の臨床現場に導入し、コード化ワークフローの最適化を可能にする可能性を裏付けた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。