[논문 리뷰] Toward Global Large Language Models in Medicine
논문은 GlobMed를 구성(500k-entry 다국어 의료 데이터셋 across 12 languages), GlobMed-Bench로 56개 LLM 평가, GlobMed-LLMs(1.7B–8B 파라미터) 학습을 수행하여, 특히 저자원 언어에서 큰 이득을 달성한다.
Despite continuous advances in medical technology, the global distribution of health care resources remains uneven. The development of large language models (LLMs) has transformed the landscape of medicine and holds promise for improving health care quality and expanding access to medical information globally. However, existing LLMs are primarily trained on high-resource languages, limiting their applicability in global medical scenarios. To address this gap, we constructed GlobMed, a large multilingual medical dataset, containing over 500,000 entries spanning 12 languages, including four low-resource languages. Building on this, we established GlobMed-Bench, which systematically assesses 56 state-of-the-art proprietary and open-weight LLMs across multiple multilingual medical tasks, revealing significant performance disparities across languages, particularly for low-resource languages. Additionally, we introduced GlobMed-LLMs, a suite of multilingual medical LLMs trained on GlobMed, with parameters ranging from 1.7B to 8B. GlobMed-LLMs achieved an average performance improvement of over 40% relative to baseline models, with a more than threefold increase in performance on low-resource languages. Together, these resources provide an important foundation for advancing the equitable development and application of LLMs globally, enabling broader language communities to benefit from technological advances.
연구 동기 및 목표
- 의료 분야 언어 자원과 모델 성능의 글로벌 불균형 문제를 다룬다.
- 저자원 언어를 포함한 12개 언어에 걸친 대규모 다국어 의료 데이터셋(GlobMed)을 생성한다.
- 다국어 의료 작업에서 기존 LLM을 평가하는 GlobMed-Bench를 통해 언어 기반 성능 차이를 밝힌다.
- GlobMed를 기반으로 학습된 다국어 의료 LLM들(GlobMed-LLMs)을 개발하여 글로벌 의료 AI 접근성을 향상시킨다.
제안 방법
- 12개 언어에 걸친 50만 건 이상을 포함하는 GlobMed를 구성하되, 네 가지 저자원 언어를 포함한다.
- GlobMed-Bench를 확립하여 다국어 의료 작업에서 56개의 최첨단 독점 및 오픈 가중치 LLM을 체계적으로 평가한다.
- GlobMed에서 1.7B에서 8B 파라미터의 모델 크기로 GlobMed-LLMs를 학습한다.
- 기저 모델에 비해 GlobMed-LLMs의 상대적 성능 향상을 평가하고, 특히 저자원 언어에서의 성능 향상에 중점을 둔다.
실험 결과
연구 질문
- RQ1다국어 의료 데이터 커버리지가 언어간 LLM 성능에 어떤 영향을 미치는가?
- RQ2다국어 의료 작업에서 56개 LLM 간의 성능 격차는 무엇인가?
- RQ3GlobMed 학습이 저자원 언어에서 LLM의 성능 향상으로 이어질 수 있는가?
- RQ4GlobMed-LLMs가 전체적으로 및 저자원 언어에서 기준선 대비 어느 정도의 향상을 달성하는가?
주요 결과
- GlobMed는 12개 언어에 걸친 50만 건이 넘는 의료 항목을 포함하며, 그 중 네 가지 저자원 언어를 포함한다.
- GlobMed-Bench는 특히 저자원 언어를 중심으로 언어 간 상당한 성능 차이를 드러낸다.
- GlobMed-LLMs(1.7B–8B)는 기준 모델 대비 평균 성능 향상을 40% 이상 달성한다.
- GlobMed-LLMs는 저자원 언어에서 기준선 대비 3배 이상 향상을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.