[논문 리뷰] Large Language Models Encode Clinical Knowledge
Flan-PaLM은 여러 의학 QA 벤치마크에서 최첨단 성능을 달성합니다; 지시 프롬프트 튜닝(Med-PaLM)은 임상의와의 정합성을 개선하지만, 인간 임상의와 비교했을 때 여전히 격차가 남습니다.
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
연구 동기 및 목표
- 시험, 연구, 그리고 소비자 질의에 걸친 의학 질문 응답을 포괄하는 다양하고 개방적인 벤치마크(MultiMedQA)를 생성합니다.
- LLM 응답의 사실성, 해로움, 편향, 유용성을 평가하기 위한 인간 평가 프레임워크를 개발하고 적용합니다.
- 벤치마크에서 PaLM과 Flan-PaLM을 평가하고, 모델을 의학 도메인 요구에 맞추기 위한 지시 프롬프트 튜닝을 제안합니다.
- 모델 규모와 프롬팅 전략이 의학 지식 회상 및 추론을 향상시키는지 보여주고, 남아 있는 안전성 및 정렬 격차를 확인합니다.
제안 방법
- 여섯 개의 기존 의학 QA 데이터셋을 결합하고 HealthSearchQA(3375개의 소비자 검색 질문)를 추가하여 MultiMedQA를 선별합니다.
- 소수 샷, 사고의 연쇄 및 자기 일관성 프롬프트를 사용하여 벤치마크에서 PaLM과 Flan-PaLM을 평가합니다.
- Flan-PaLM에 대해 MedQA, MedMCQA, PubMedQA 및 MMLU 임상 주제에서 최첨단 정확도를 보고합니다(예: MedQA에서 67.6%).
- 의료 도메인 작업에 Flan-PaLM을 정렬시키기 위한 지시 프롬프트 튜닝을 도입하여 임상 정렬이 향상된 Med-PaLM을 생성합니다.
- 과학적 합의와의 일치성, 잠재적 해로움, 편향 등의 축에 걸친 의사 및 일반 사용자 평가를 포함하는 파일럿 인간 평가 프레임워크를 개발합니다.
- 의료 LLM의 안전성과 유용성을 향상시키기 위한 주요 한계점과 향후 연구 방향을 논의합니다.
실험 결과
연구 질문
- RQ1대규모 언어 모델은 다양한 의학 QA 과제에서 임상 지식을 어느 정도 인코딩하고 활용합니까?
- RQ2지시 프롬프트 튜닝이 LLM을 의학 도메인 요구사항에 맞추어 해를 줄이고 사실성 및 유용성을 개선할 수 있습니까?
- RQ3모델 규모와 프롬프트 전략이 LLM의 이해력, 기억력, 의학적 추론에 어떤 영향을 줍니까?
- RQ4의사 평가와 일반인 평가가 의학 AI 출력 평가에서 자동 벤치마크와 어떻게 비교됩니까?
주요 결과
- Flan-PaLM은 MedQA(67.6%), MedMCQA(57.6%), PubMedQA(79.0%), 및 MMLU 임상 주제에서 최첨단 정확도를 달성합니다.
- MedQA 성능이 이전 SOTA를 17% 이상 향상시킵니다.
- 의료인 평가: Flan-PaLM의 장문 응답 중 61.9%가 과학적 합의와 일치, 반면 Med-PaLM은 92.6%, 임상가가 생성한 응답은 92.9%와 일치합니다.
- 잠재적 해로움: Flan-PaLM 응답의 29.7%가 잠재적으로 해를 초래할 수 있다고 평가되었고, Med-PaLM은 5.8%, 임상가가 생성한 응답은 6.5%였습니다.
- 지시 튜닝 버전인 Med-PaLM은 의학 합의와 해를 줄이는 데 고무적인 결과를 보이나, 일부 축에서는 여전히 임상의보다 열등합니다.
- HealthSearchQA는 실제 세계의 질문 응답을 평가하기 위해 3,375개의 소비자 중심 의학 질문을 도입합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.