[논문 리뷰] Towards Expert-Level Medical Question Answering with Large Language Models
Med-PaLM 2은 PaLM 2, 도메인 특화 파인튜닝, 앙상블 개선을 활용하여 기존의 의료 Q&A 모델을 능가하고, 다수 벤치마크에서 최첨단 성과와 긴 형식 답변에 대한 인간 평가가 우호적임.
Recent artificial intelligence (AI) systems have reached milestones in "grand challenges" ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been viewed as one such grand challenge. Large language models (LLMs) have catalyzed significant progress in medical question answering; Med-PaLM was the first model to exceed a "passing" score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset. However, this and other prior work suggested significant room for improvement, especially when models' answers were compared to clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by leveraging a combination of base LLM improvements (PaLM 2), medical domain finetuning, and prompting strategies including a novel ensemble refinement approach. Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art. We also observed performance approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU clinical topics datasets. We performed detailed human evaluations on long-form questions along multiple axes relevant to clinical applications. In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p < 0.001). We also observed significant improvements compared to Med-PaLM on every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form "adversarial" questions to probe LLM limitations. While further studies are necessary to validate the efficacy of these models in real-world settings, these results highlight rapid progress towards physician-level performance in medical question answering.
연구 동기 및 목표
- 대형 언어 모델을 사용하여 의사 수준의 의료 질의응답 성능을 향상시키는 것을 목표로 함.
- 다중 도메인 의료 Q&A 벤치마크와 실제 세계 스타일의 긴 형식 질문에 대해 모델 평가.
- 의료 추론 및 안전성을 향상시키는 프롬핑 전략을 개발하고 검증함.
제안 방법
- PaLM 2를 기본 LLM으로 사용.
- MultiMedQA 데이터셋(MedQA, MedMCQA, HealthSearchQA, LiveQA, MedicationQA)에 대한 지시 조정(instruction tuning)을 통해 의학 도메인 데이터로 미세조정.
- 여러 추론 경로를 모으고 답을 다듬기 위해 앙상블 정교화 프롱핑 도입.
- Few-shot, chain-of-thought, self-consistency, ensemble refinement 등 여러 프롬핑 전략으로 평가.
- 긴 형식 답변과 적대적 데이터셋에서 의사 및 일반인 평가자에 의한 광범위한 인간 평가를 수행.
- 훈련 데이터 오염 가능성을 평가하기 위한 테스트-세트 중첩 분석.

실험 결과
연구 질문
- RQ1표준 의료 Q&A 벤치마크에서 Med-PaLM 2가 의사 수준의 성능에 도달하거나 이를 능가할 수 있는가?
- RQ2도메인 특정 파인튜닝과 고급 프롬핑 전략이 긴 형식 답변에서 의료 추론 및 안전성을 향상시키는가?
- RQ3적대적이거나 형평성 초점의 질문에 직면했을 때 모델 출력은 얼마나 강건한가?
- RQ4훈련/테스트 중첩이 보고된 벤치마크 성능에 미치는 영향은 무엇인가?
주요 결과
- Med-PaLM 2는 MedQA USMLE 스타일 질문에서 최대 86.5%의 정확도를 달성하며 Med-PaLM보다 19%포인트 이상 향상시켰다.
- Med-PaLM 2가 MedMCQA, PubMedQA, 및 MMLU 임상 주제에서 최첨단에 접근하거나 이를 능가한다.
- 긴 형식 평가에서 의사들은 9개 임상 유용성 축 중 8개에서 Med-PaLM보다 Med-PaLM 2를 선호했고, 일반 평가는 Med-PaLM 2가 더 도움이 되고 관련성이 높다고 판단.
- 적대적 데이터셋에서 Med-PaLM 2는 안전성 및 한계 탐색의 모든 축에서 Med-PaLM보다 현저히 우수하다고 나타남(예: 해를 입힐 위험 낮음, 의료 합의와의 정렬 개선).
- 간단한 앙상블 정교화 프롬핑 전략이 다수의 선택형 벤치마크(MedQA 및 MMLU 변형 등)에서 기본 few-shot 및 self-consistency 대비 성능을 크게 향상시킴.
- 중첩 분석은 제한적이지만 무시할 수 없고, 보고된 성능에 미미한 영향을 미침.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.