Skip to main content
QUICK REVIEW

[논문 리뷰] The Shaky Foundations of Clinical Foundation Models: A Survey of Large Language Models and Foundation Models for EMRs

Michael Wornow, Yizhe Xu|arXiv (Cornell University)|2023. 03. 22.
Machine Learning in Healthcare인용 수 11
한 줄 요약

본 연구는 비영상 EMR 데이터로 학습된 기초 모델을 분석하고, 데이터셋 및 평가의 격차를 폭로하며, 의료 현장에 기반한 평가 프레임워크를 제안한다.

ABSTRACT

The successes of foundation models such as ChatGPT and AlphaFold have spurred significant interest in building similar models for electronic medical records (EMRs) to improve patient care and hospital operations. However, recent hype has obscured critical gaps in our understanding of these models' capabilities. We review over 80 foundation models trained on non-imaging EMR data (i.e. clinical text and/or structured data) and create a taxonomy delineating their architectures, training data, and potential use cases. We find that most models are trained on small, narrowly-scoped clinical datasets (e.g. MIMIC-III) or broad, public biomedical corpora (e.g. PubMed) and are evaluated on tasks that do not provide meaningful insights on their usefulness to health systems. In light of these findings, we propose an improved evaluation framework for measuring the benefits of clinical foundation models that is more closely grounded to metrics that matter in healthcare.

연구 동기 및 목표

  • 비영상 EMR 데이터(임상 텍스트 및 구조화된 데이터)로 학습된 기초 모델의 현황을 조사한다.
  • EMR 중심 모델을 위한 아키텍처, 학습 데이터 소스 및 잠재적 사용 사례의 분류 체계를 만든다.
  • 현행 평가 관행을 비판적으로 평가하고 그것의 건강 시스템 혜택과의 관련성을 분석한다.
  • 의료 분야에서 중요한 지표에 부합하는 개선된 평가 프레임워크를 제안한다.

제안 방법

  • 비영상 EMR 관련 데이터로 학습된 80개가 넘는 기초 모델에 대한 검토.
  • 아키텍처, 학습 데이터 및 사용 사례를 상세히 다루는 분류 체계 개발.
  • 훈련에 사용된 데이터세트(예: MIMIC-III) 및 공개 생물의학 말뭉치(예: PubMed)에 대한 비판적 분석.
  • 평가 작업의 분석 및 이들이 건강 시스템에 의미 있는 통찰을 제공하지 않는 점에 대한 비판.
  • 의료 관련 지표에 기반한 평가 프레임워크의 제안.

실험 결과

연구 질문

  • RQ1EMR 중심 기초 모델에서 어떤 아키텍처와 학습 데이터 소스가 지배적인가?
  • RQ2현재 이들 모델은 어떻게 평가되고 있으며, 과제가 실제 의료 수요를 반영하는가?
  • RQ3모델의 능력과 실제 건강 시스템 혜택 간의 간극은 무엇인가?
  • RQ4의료 결과에 중요한 지표에 맞춰 평가를 어떻게 재정렬할 수 있는가?

주요 결과

  • 대부분의 모델은 작고 좁은 범위의 데이터세트나 광범위한 공용 말뭉치로 학습된다.
  • 평가는 종종 건강 시스템에 의미 있는 통찰을 제공하지 않는 과제를 사용한다.
  • 모델 평가와 실제 의료 혜택 간의 부적합이 있다.
  • 실용적 가치를 측정하기 위한 개선된, 의료 기반의 평가 프레임워크가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.