[論文レビュー] Cross-Lingual Empirical Evaluation of Large Language Models for Arabic Medical Tasks
論文は、アラビア語医学MCQに対するオープンソースLLMのクロスリンガル診断研究を実施し、アラビア語と英語の性能を比較し、アラビア語性能格差を生産する言語的要因、トークン化、信頼性、出力フォーマットを分析します。
In recent years, Large Language Models (LLMs) have become widely used in medical applications, such as clinical decision support, medical education, and medical question answering. Yet, these models are often English-centric, limiting their robustness and reliability for linguistically diverse communities. Recent work has highlighted discrepancies in performance in low-resource languages for various medical tasks, but the underlying causes remain poorly understood. In this study, we conduct a cross-lingual empirical analysis of LLM performance on Arabic and English medical question and answering. Our findings reveal a persistent language-driven performance gap that intensifies with increasing task complexity. Tokenization analysis exposes structural fragmentation in Arabic medical text, while reliability analysis suggests that model-reported confidence and explanations exhibit limited correlation with correctness. Together, these findings underscore the need for language-aware design and evaluation strategies in LLMs for medical tasks.
研究の動機と目的
- アラビア語の性能格差が医療LLMの言語、ドメイン知識、またはアーキテクチャに起因するかを調査する。
- 医療コンテンツを一定に保つ一方で英語翻訳と比較してアラビア語の質問の言語表現の影響を分離する。
- 入力長さ、難易度、医療分野がアラビア語と英語の性能にどう影響するかを検討する。
- 出力フォーマット(MCQ vs. 自由記述)が跨言語性能に与える影響を分析する。
- アラビア語医学QAにおけるトークン化の断片化とモデル信頼度・説明の信頼性を評価する。
提案手法
- 一般用途と医療ドメインのLLMを対象とした言語横断的診断評価フレームワークを設計する。
- 言語効果を分離するため英訳付きのアラビア語MCQデータセットMedAraBenchを使用する。
- 2つのカテゴリ(一般用途と医療ドメイン)からオープンソースモデルをアラビア語・英語MCQで統一プロンプト設定で評価する。
- ソフトマッチング(MCQの選択肢選択)とハードマッチング(テキスト生成)を用いた出力フォーマットを分析し、表現形と意思決定の正確さを測定する。
- アラビア語と英語の入力におけるトークン化断片化指標(語あたりのトークン数、トークンあたりの文字数、単一文字トークン)を検査する。
- モデルが報告する信頼度と説明を評価し、正確さの指標としての較正性と信頼性を判断する。

実験結果
リサーチクエスチョン
- RQ1RQ1: 言語による性能低下が医療推論よりも言語要因にどの程度左右されるか。
- RQ2RQ2: 質問の長さ、難易度、専門性は言語間でモデルの性能にどう影響するか。
- RQ3RQ3: 整合性制約と出力形式は言語間でモデル挙動にどう影響するか。
- RQ4RQ4: トークン化の挙動はアラビア語の性能格差に寄与するか。
- RQ5RQ5: モデルの信頼度推定と説明は正確性の信頼指標として信頼できるか。
主な発見
| Model | Acc Ar | Acc En | Δ En–Ar |
|---|---|---|---|
| DeepSeek-V3.2 | 62.39 | 62.85 | 0.46 |
| Llama 3.3 70B | 42.10 | 57.61 | 15.51 |
| Mistral-Small-3.2-24B | 50.25 | 57.75 | 7.50 |
| Meditron 3 70B | 50.51 | 58.80 | 8.92 |
| Med42-70B | 33.59 | 53.21 | 19.62 |
| medgemma-27b-text-it | 49.22 | 52.30 | 3.08 |
- アラビア語の精度はほとんどのモデルで英語より低く、言語関連の性能格差を示す;DeepSeek-V3.2はほぼ同等。
- 同程度のパラメータのモデルでは英語がアラビア語より優れており、モデルサイズやドメイン特化以外の言語要因を示唆。
- より長い質問と高難度はアラビア語の性能を英語よりも鋭く低下させ、特にMed42-70Bで顕著。
- 表面的なトークンベースのマッチングは、テキスト生成時にアラビア語のギャップがMCQ選択時より大きい。
- モデルの信頼度は両言語で正確さと負の相関を示し、較正が不十分であり、説明はしばしば改善せず、場合によっては性能を低下させる。
- 説明 promptingは混合効果を示し、いくつかのモデルはアラビア語でわずかに改善するが、多くは低下し、推論–ラベルの不整合を浮き彫りにする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。