[논문 리뷰] A Survey of Large Language Models in Medicine: Progress, Application, and Challenge
의료 대형 언어 모델(LLMs)이 구축되고 평가되며 임상 실무에 적용되는 방식에 대한 포괄적 검토로, 도전 과제와 향후 방향을 강조한다.
Large language models (LLMs), such as ChatGPT, have received substantial attention due to their capabilities for understanding and generating human language. While there has been a burgeoning trend in research focusing on the employment of LLMs in supporting different medical tasks (e.g., enhancing clinical diagnostics and providing medical education), a review of these efforts, particularly their development, practical applications, and outcomes in medicine, remains scarce. Therefore, this review aims to provide a detailed overview of the development and deployment of LLMs in medicine, including the challenges and opportunities they face. In terms of development, we provide a detailed introduction to the principles of existing medical LLMs, including their basic model structures, number of parameters, and sources and scales of data used for model development. It serves as a guide for practitioners in developing medical LLMs tailored to their specific needs. In terms of deployment, we offer a comparison of the performance of different LLMs across various medical tasks, and further compare them with state-of-the-art lightweight models, aiming to provide an understanding of the advantages and limitations of LLMs in medicine. Overall, in this review, we address the following questions: 1) What are the practices for developing medical LLMs 2) How to measure the medical task performance of LLMs in a medical setting? 3) How have medical LLMs been employed in real-world practice? 4) What challenges arise from the use of medical LLMs? and 5) How to more effectively develop and deploy medical LLMs? By answering these questions, this review aims to provide insights into the opportunities for LLMs in medicine and serve as a practical resource. We also maintain a regularly updated list of practical guides on medical LLMs at https://github.com/AI-in-Health/MedLLMsPracticalGuide
연구 동기 및 목표
- 의료 LLM이 어떻게 구성되는지(사전 학습, 미세 조정, 프롬프트)와 사용되는 데이터 소스가 무엇인지 설명한다.
- 의료 LLM 성능을 평가하기 위한 생물의학 NLP 전반의 평가 지표와 벤치마크 과제를 요약한다.
- 실제 임상 환경에서 의료 LLM을 배포하기 위한 실용적 임상 응용 사례와 가이드라인을 설명한다.
- 환각, 데이터 한계, 윤리·안전 등 주요 도전과제를 식별하고 발전을 위한 향후 방향을 제시한다.
제안 방법
- 사전 학습과 미세 조정에 사용되는 기존의 의료 LLM 아키텍처와 데이터 소스를 조사한다.
- 미세 조정 방법(SFT, IFT, 매개변수 효율적 튜닝)과 프롬프트 기법(zero-/few-shot, CoT, self-consistency, prompt tuning)을 비교한다.
- 판별적 및 생성적 등 다운스트림 생물의학 NLP 작업과 표준 평가 데이터셋을 요약한다.
- 일곱 가지 임상 응용 시나리오에 대한 가이드라인을 제시하고 배치 고려사항을 논의한다.
- 환각, 평가 벤치마크, 데이터 한계, 새로운 지식 적응, 정렬, 윤리/안전 등 도전과제와 향후 방향을 논의한다.

실험 결과
연구 질문
- RQ1의료 LLM은 어떻게 구축되어야 하며 어떤 데이터 소스가 가장 효과적입니까?
- RQ2의료 LLM을 평가하는 벤치마크와 지표는 무엇이며 작업 간 성능은 어떠합니까?
- RQ3의료 LLM을 실제 임상 실무에서 어떻게 적용해야 합니까?
- RQ4배치 및 유지 관리에서 의료 LLM이 직면하는 도전과제는 무엇입니까?
- RQ5의료 LLM의 구축, 평가, 배치를 어떻게 개선할 수 있는 방향은 무엇입니까?
주요 결과
- 의료 LLM은 도메인 데이터에 대한 사전 학습에서 시작하여 일반 LLM을 미세 조정하거나 프롬프트화하여 생물의학 NLP 과제에서 강한 성능을 달성해 왔습니다.
- 판별적 및 생성적 다운스트림 과제의 광범위한 범주가 벤치마크와 인간 전문가와의 비교 평가를 위해 의료 LLM을 평가하는 데 사용됩니다.
- 이 논문은 일곱 가지 임상 시나리오에 걸쳐 의료 LLM을 배포하기 위한 실용적인 가이드라인을 제공하고 GPT-3.5-turbo, GPT-4 및 인간 전문가와의 성능 비교를 강조합니다.
- 환각, 평가의 격차, 도메인 데이터 한계, 윤리/안전 문제는 의료 LLM의 주요 도전 과제로 확인되었으며, 보다 광범위한 신뢰성 평가와 보다 안전한 배치를 촉구합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.