QUICK REVIEW

[論文レビュー] MedErrBench: A Fine-Grained Multilingual Benchmark for Medical Error Detection and Correction with Clinical Expert Annotations

Congbo Ma, Yichun Zhang|arXiv (Cornell University)|Feb 5, 2026

Artificial Intelligence in Healthcare and Education被引用数 0

ひとこと要約

MedErrBench は、臨床医が注釈したエラータイプを含む医療エラー検出、局在化、訂正の多言語ベンチマークを英語、アラビア語、中国語で導入し、広範なLLMを評価して多言語のギャップと臨床的に根拠づけられた言語対応モデルの必要性を明らかにします。

ABSTRACT

Inaccuracies in existing or generated clinical text may lead to serious adverse consequences, especially if it is a misdiagnosis or incorrect treatment suggestion. With Large Language Models (LLMs) increasingly being used across diverse healthcare applications, comprehensive evaluation through dedicated benchmarks is crucial. However, such datasets remain scarce, especially across diverse languages and contexts. In this paper, we introduce MedErrBench, the first multilingual benchmark for error detection, localization, and correction, developed under the guidance of experienced clinicians. Based on an expanded taxonomy of ten common error types, MedErrBench covers English, Arabic and Chinese, with natural clinical cases annotated and reviewed by domain experts. We assessed the performance of a range of general-purpose, language-specific, and medical-domain language models across all three tasks. Our results reveal notable performance gaps, particularly in non-English settings, highlighting the need for clinically grounded, language-aware systems. By making MedErrBench and our evaluation protocols publicly-available, we aim to advance multilingual clinical NLP to promote safer and more equitable AI-based healthcare globally. The dataset is available in the supplementary material. An anonymized version of the dataset is available at: https://github.com/congboma/MedErrBench.

研究の動機と目的

多言語医療NLP評価のための臨床医に情報を提供する10種類の臨床エラータイプの分類法を開発する。
医療エラー検出、局在化、訂正の多言語ベンチマーク（英語、アラビア語、中国語）を作成・検証する。
3言語でのベンチマークに対して、一般用途、言語特化、医療領域のLLMの広範な範囲を評価する。
モデルの限界、言語間一般化、およびプロンプトとFew-shot学習が性能に与える影響についての洞察を提供する。

提案手法

非翻訳、多源データ取得を用いて多言語臨床データを英語、中国語、アラビア語に区分する。
MEDEC を拡張した10-type エラータ taxonomy を定義し、さらに5つの新カテゴリ（Lab/Serum Value Interpretation, Physiology, Histology, Anatomy, Epidemiology）と定義および例を提供する。
臨床的根拠のあるエラーをノートに注入して、検出・局在化・訂正タスクのためのエラーあり/なしのペアを作成する。
各インスタンスに臨床語の重要度、難易度（Easy/Medium/Hard）、推論型（Factual Recall, Single-hop, Multi-hop）を注釈する。
内容妥当性と注釈品質を検証するための二段階の臨床医レビューを実施し、意見の不一致を解消し正確性を確保する。

実験結果

リサーチクエスチョン

RQ1英語、アラビア語、中国語の多言語医療エラー検出、局在化、訂正における広範なLLMの性能はどうか。
RQ2エラータイプ定義、模範プロンプト、Few-shotの例が臨床エラータスクのモデル性能にどのように影響するか。
RQ3知識ベースの臨床ノートとシナリオベースの臨床ノートは多言語設定でモデル能力にどう影響するか。
RQ4医療エラー検出と訂正における跨言語一般化能力と言語特有の課題は何か。
RQ5現在のモデルにはどのような限界があり、臨床的に根拠づけられた言語対応システムを改善する方向は何か。

主な発見

Model	Detection Accuracy	Localization Accuracy	ROUGE-1	BertScore	BLEURT
GPT-4o	0.596	0.346	0.415	0.428	0.407
GPT-4o-mini	0.664	0.524	0.487	0.498	0.472
Gemini 2.5 Flash Lite	0.567	0.264	0.349	0.362	0.346
Gemini 2.0 Flash	0.514	0.168	0.281	0.294	0.288
Llama3-8b	0.519	0.361	0.266	0.261	0.282
Llama-3.3-70B-Instruct	0.582	0.255	0.369	0.369	0.385
Qwen2.5-7B-Instruct	0.563	0.490	0.372	0.450	0.371
Deepseek-R1	0.582	0.577	0.700	0.716	0.681
Deepseek-V3	0.587	0.582	0.703	0.732	0.693
Doubao-1.5	0.779	0.774	0.766	0.783	0.773
ALLAM-7B	0.029	0.014	0.015	0.020	0.014
MedGemma-4b	0.505	0.438	0.511	0.518	0.513
MedGemma-27b	0.543	0.245	0.377	0.390	0.349
HuatuoGPT-o1-7b	0.574	0.530	0.486	0.475	0.475

Doubao-1.5-thinking-pro、Deepseek-R1、Deepseek-V3 は複数言語の複数タスクで他を上回る。
医療領域のLLMはエラー検出/訂正タスクで一般用途モデルを一貫して上回らない。
アラビア語の性能は一部モデルで顕著に低く、低リソース言語設定でのドメイン適応ギャップを示す。
エラータイプの定義とFew-shot の例を提供すると一般に性能が向上し、定義はゼロショット設定で特に有益。
局在化と訂正は検出より困難であり、プロンプト設計はモデル固有の効果を示す。
人間評価では臨床医が注釈した中国語サンプルが特定のモデル（例：Gemini 2.0 Flash）を他より評価している（例：GPT-4o-mini）ことが示された。

Figure 2: Distribution of difficulty level and reasoning type.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。