Skip to main content
QUICK REVIEW

[論文レビュー] KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination

Byungjin Choi, Seongsu Bae|arXiv (Cornell University)|Feb 14, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

KorMedMCQA-V は 1,534 問題と 2,043 枚の画像を持つ韓国式試験風のマルチモーダルMCQAベンチマークで、ゼロショット条件下でビジョン-ランゲージモデルを評価し、モダリティ、画像数、モデル種別を分析します。

ABSTRACT

We introduce KorMedMCQA-V, a Korean medical licensing-exam-style multimodal multiple-choice question answering benchmark for evaluating vision-language models (VLMs). The dataset consists of 1,534 questions with 2,043 associated images from Korean Medical Licensing Examinations (2012-2023), with about 30% containing multiple images requiring cross-image evidence integration. Images cover clinical modalities including X-ray, computed tomography (CT), electrocardiography (ECG), ultrasound, endoscopy, and other medical visuals. We benchmark over 50 VLMs across proprietary and open-source categories-spanning general-purpose, medical-specialized, and Korean-specialized families-under a unified zero-shot evaluation protocol. The best proprietary model (Gemini-3.0-Pro) achieves 96.9% accuracy, the best open-source model (Qwen3-VL-32B-Thinking) 83.7%, and the best Korean-specialized model (VARCO-VISION-2.0-14B) only 43.2%. We further find that reasoning-oriented model variants gain up to +20 percentage points over instruction-tuned counterparts, medical domain specialization yields inconsistent gains over strong general-purpose baselines, all models degrade on multi-image questions, and performance varies notably across imaging modalities. By complementing the text-only KorMedMCQA benchmark, KorMedMCQA-V forms a unified evaluation suite for Korean medical reasoning across text-only and multimodal conditions. The dataset is available via Hugging Face Datasets: https://huggingface.co/datasets/seongsubae/KorMedMCQA-V.

研究の動機と目的

  • 2012–2023 年の画像ベース医療問題を含む韓国ライセンス試験風マルチモーダル MCQA ベンチマークを提供する。
  • 統一されたゼロショットプロトコルの下で、広範なビジョン-ランゲージモデル(汎用、医療専門、韓国専門)を評価する。
  • 画像モダリティ、単一画像 vs 複数画像の問題、モデルの推論能力別に性能を分析する。
  • テキストのみのKorMedMCQA ベンチマークを補完し、統一された韓国医療推論評価スイートを形成する。)

提案手法

  • 公式 KMLE アイテムから 1 枚以上の関連画像を持つ KorMedMCQA-V を組み立てる(1,534 問題; 2,043 枚の画像)。
  • 89.2% のコンセンサスを得るために 4 名の VLM のコンセンサスと臨床医のレビューで画像モダリティを注釈し、残りのケースは専門家調停で確定。
  • 51 個の VLM(独自・オープンソース、汎用・医療専門・韓国専門グループを横断)をゼロショット・閉じた本設定で、単一プロンプトと JSON 出力で評価する。
  • デフォルトの画像前処理器を用いた統一評価プロトコルを使用し、複数画像問題は試験の順序を維持して画像間でエビデンスを集計する。
  • プロンプト、モデルバージョン、ハイパーパラメータを詳述して再現性を確保し、データセットと評価コードを公開する。)

実験結果

リサーチクエスチョン

  • RQ1ビジョン-ランゲージモデルは、異なる画像モダリティを横断する韓国ライセンス試験風のマルチモーダル問題でどのように性能を発揮するのか?
  • RQ2モデルサイズ、明示的推論訓練、医療領域適応が韓国語のマルチモーダル医療推論に与える影響は何か?
  • RQ3複数画像推論は単一画像問題と比較して性能にどのように影響するのか?
  • RQ4韓国語専門性や医療専門性は、強力な汎用ベースラインより一貫して性能を向上させるのか?

主な発見

  • 独自モデルが性能を支配しており、メインのマルチモーダルベンチマークで Gemini-3.0-Pro が総合精度 96.9%、GPT-5 が 93.9% を達成した。
  • オープンソースモデルの中では Qwen3-VL-32B-Thinking が総合精度 83.7% に達する一方、韓国専門モデルは遅れ(例: VARCO-VISION-2.0-14B が 43.2%)。
  • 推論志向のバリアントは指示調整型の counterparts より約 +20 ポイント程度の改善を示すが、ドメイン適応は一貫した利得を生まず、より大きなモデルは一般により良く機能する。
  • 多くのモデルは複数画像問題で苦戦し、単一画像からの性能低下を示す(3 枚以上の画像で平均 57.0% から 50.3% へ低下)。
  • MRI と PBS は最も容易なモダリティの一つであり、一部のモデルでほぼ 100% に達することもあるが、NST、CT、内視鏡はより難しく、モダリティ間のギャップはモデルファミリー全体で残る。
  • 混合テキスト+視覚のベンチマークでは、テキスト単独の問題がしばしば簡単であるが、テキストと視覚の精度差はモデルによって異なり、韓国語専門モデルで大きなギャップが見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。