QUICK REVIEW

[논문 리뷰] Cross-Lingual Empirical Evaluation of Large Language Models for Arabic Medical Tasks

Chaimae Abouzahir, Congbo Ma|arXiv (Cornell University)|2026. 02. 05.

Topic Modeling인용 수 0

한 줄 요약

해당 논문은 Arabic 의료 MCQ에서 오픈 소스 LLM을 대상으로 언어 간 진단 연구를 수행하고, Arabic vs. English 성능을 비교하며, Arabic 성능 격차를 유발하는 언어적, 토큰화, 신뢰성, 출력 형식 요인을 분석합니다.

ABSTRACT

In recent years, Large Language Models (LLMs) have become widely used in medical applications, such as clinical decision support, medical education, and medical question answering. Yet, these models are often English-centric, limiting their robustness and reliability for linguistically diverse communities. Recent work has highlighted discrepancies in performance in low-resource languages for various medical tasks, but the underlying causes remain poorly understood. In this study, we conduct a cross-lingual empirical analysis of LLM performance on Arabic and English medical question and answering. Our findings reveal a persistent language-driven performance gap that intensifies with increasing task complexity. Tokenization analysis exposes structural fragmentation in Arabic medical text, while reliability analysis suggests that model-reported confidence and explanations exhibit limited correlation with correctness. Together, these findings underscore the need for language-aware design and evaluation strategies in LLMs for medical tasks.

연구 동기 및 목표

Arabic 성능 격차가 의료 LLM의 언어, 도메인 지식, 혹은 아키텍처에서 기인하는지 조사한다.
의료 콘텐츠를 일정하게 유지하며 Arabic 질문과 English 번역을 비교하여 언어 표현의 효과를 분리한다.
입력 길이, 난이도, 의료 도메인이 Arabic 대 English 성능에 어떤 영향을 미치는지 조사한다.
출력 형식(객관식 대 자유 형식 텍스트)이 다언어 성능에 어떤 영향을 주는지 분석한다.
Arabic 의료 QA에서 토큰화 파편화와 모델 신뢰도 및 설명의 신뢰성을 평가하여 정확성의 지표로서의 유효성을 판단한다.

제안 방법

다양한 언어, 출력, 토큰화 동작에 대한 일반 목적 및 의료 LLM에 대한 교차 언어 진단 평가 프레임워크를 설계한다.
MedAraBench, 영어 번역이 포함된 Arabic MCQ 데이터셋을 사용하여 콘텐츠를 일정하게 유지하면서 언어 효과를 분리한다.
두 가지 범주(일반 목적 및 의료 도메인)에서 오픈 소스 모델을 Arabic 및 English MCQ로 평가하고 단일 프롬팅 설정을 사용한다.
소프트 매칭(MCQ 옵션 선택) 대 하드 매칭(텍스트 생성)을 통한 출력 형식을 분석하고 표면 형식 대 의사 결정 정확도를 측정한다.
Arabic 대 English 입력에서 토큰화 파편화 지표(단어당 토큰 수, 토당 문자 수, 단일 문자 토큰)를 검사한다.
정확성의 지표로서 보정과 신뢰성을 판단하기 위해 모델이 보고하는 신뢰도와 설명을 평가한다.

Figure 1: Effect of question length on accuracy across Arabic and English. (a–b) Rolling accuracy versus question length for DeepSeek-V3.2 and Med42-70B, respectively. (c) Distribution of question lengths in both languages. (d) Arabic–English length correspondence for aligned question pairs.

실험 결과

연구 질문

RQ1RQ1: 언어보다는 의료 추론에 의해 성능 저하가 얼마나 주도되는가?
RQ2RQ2: 질문 길이, 난이도, 전문 분야가 다국어에서 모델 성능에 어떤 영향을 미치는가?
RQ3RQ3: 정렬 제약 및 출력 형식이 다국어에서 모델의 동작에 어떤 영향을 미치는가?
RQ4RQ4: 토크나이제이션 동작이 Arabic 성능 격차에 기여하는가?
RQ5RQ5: 모델의 신뢰도 추정치와 설명은 정확성의 신뢰할 수 있는 지표인가?

주요 결과

모델	정확도 Ar	정확도 En	Δ En–Ar
DeepSeek-V3.2	62.39	62.85	0.46
Llama 3.3 70B	42.10	57.61	15.51
Mistral-Small-3.2-24B	50.25	57.75	7.50
Meditron 3 70B	50.51	58.80	8.92
Med42-70B	33.59	53.21	19.62
medgemma-27b-text-it	49.22	52.30	3.08

Arabic 정확도는 대부분의 모델에서 영어보다 일관되게 낮아 언어 연관 성능 격차를 나타내며, DeepSeek-V3.2만이 거의 동등한 수준으로 주목될 예외이다.
비교 가능한 매개변수 모델의 경우 영어가 Arabic보다 우수하여 모델 크기나 도메인 전문화 이외의 언어 효과를 시사한다.
더 긴 질문과 더 높은 난이도는 Arabic 성능을 영어보다 더 급격히 저하시키며, 특히 Med42-70B에서 두드러진다.
표면 형식의 토큰 매칭은 텍스트 생성 하에서 Arabic 격차가 더 크게 나타나고 MCQ 옵션 선택에서는 그렇지 않다.
모델 신뢰도는 영어와 Arabic 모두에서 정확도와 음의 상관관계를 보여 보정이 잘 되지 않으며, 설명은 종종 개선되지 않거나 성능을 저하시킬 수도 있다.
설명 프롬프트는 혼합 효과를 낳으며 일부 모델은 Arabic에서 미세하게 향상되지만 많은 경우 하락을 보이며 추론-라벨 불일치를 강조한다.

Figure 2: Accuracy by educational difficulty level (early vs. later years) for DeepSeek-V3.2 and Med42-70B on Arabic and English medical MCQs.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.