QUICK REVIEW

[論文レビュー] The Shaky Foundations of Clinical Foundation Models: A Survey of Large Language Models and Foundation Models for EMRs

Michael Wornow, Yizhe Xu|arXiv (Cornell University)|Mar 22, 2023

Machine Learning in Healthcare被引用数 11

ひとこと要約

この調査は、非画像のEMRデータで訓練されたファウンデーションモデルを分析し、データセットと評価のギャップを暴露し、医療に根ざした評価フレームワークを提案します。

ABSTRACT

The successes of foundation models such as ChatGPT and AlphaFold have spurred significant interest in building similar models for electronic medical records (EMRs) to improve patient care and hospital operations. However, recent hype has obscured critical gaps in our understanding of these models' capabilities. We review over 80 foundation models trained on non-imaging EMR data (i.e. clinical text and/or structured data) and create a taxonomy delineating their architectures, training data, and potential use cases. We find that most models are trained on small, narrowly-scoped clinical datasets (e.g. MIMIC-III) or broad, public biomedical corpora (e.g. PubMed) and are evaluated on tasks that do not provide meaningful insights on their usefulness to health systems. In light of these findings, we propose an improved evaluation framework for measuring the benefits of clinical foundation models that is more closely grounded to metrics that matter in healthcare.

研究の動機と目的

非画像のEMRデータ（臨床テキストと構造化データ）で訓練されたファウンデーションモデルの景観を調査する。
EMRに焦点を当てたモデルのアーキテクチャ、訓練データソース、および潜在的なユースケースの分類を作成する。
現在の評価実践を批判的に評価し、それらがヘルスシステムの利益にどの程度関連しているかを評価する。
医療で重要な指標に合わせて改善された評価フレームワークを提案する。

提案手法

非画像のEMR関連データで訓練された80以上のファウンデーションモデルのレビュー。
アーキテクチャ、訓練データ、ユースケースを詳述する分類法の開発。
訓練に使用されたデータセット（例：MIMIC-III）や公的な生物医学コーパラ（例：PubMed）を批判的に分析。
評価タスクと、ヘルスシステムにとって意味のある洞察の欠如を評価。
医療に関連する指標に基づく評価フレームワークの提案。

実験結果

リサーチクエスチョン

RQ1EMRに焦点を当てたファウンデーションモデルで支配的なアーキテクチャと訓練データソースは何ですか？
RQ2これらのモデルは現在どう評価されており、タスクは実際の医療ニーズを反映していますか？
RQ3モデルの能力と実際のヘルスシステムの利益との間にはどのようなギャップが存在しますか？
RQ4評価を医療のアウトカムにとって重要な指標へ再調整するにはどうすればよいですか？

主な発見

ほとんどのモデルは小規模で範囲の狭いデータセットや広範な公的コーパスで訓練されています。
評価はしばしばヘルスシステムにとって意味のある洞察を提供しないタスクを使用します。
モデル評価と実際の医療利益との間にずれがあります。
実用的な価値を測定するために医療に根ざした改善された評価フレームワークが必要です。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。