Skip to main content
QUICK REVIEW

[논문 리뷰] KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination

Byungjin Choi, Seongsu Bae|arXiv (Cornell University)|2026. 02. 14.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

KorMedMCQA-V는 1,534개의 문제와 2,043개의 이미지를 가진 한국식 시험 스타일의 다중모달 MCQA 벤치마크로, 제로샷 조건에서 비전-언어 모델을 평가하고 모달리티, 이미지 수, 모델 유형을 분석합니다.

ABSTRACT

We introduce KorMedMCQA-V, a Korean medical licensing-exam-style multimodal multiple-choice question answering benchmark for evaluating vision-language models (VLMs). The dataset consists of 1,534 questions with 2,043 associated images from Korean Medical Licensing Examinations (2012-2023), with about 30% containing multiple images requiring cross-image evidence integration. Images cover clinical modalities including X-ray, computed tomography (CT), electrocardiography (ECG), ultrasound, endoscopy, and other medical visuals. We benchmark over 50 VLMs across proprietary and open-source categories-spanning general-purpose, medical-specialized, and Korean-specialized families-under a unified zero-shot evaluation protocol. The best proprietary model (Gemini-3.0-Pro) achieves 96.9% accuracy, the best open-source model (Qwen3-VL-32B-Thinking) 83.7%, and the best Korean-specialized model (VARCO-VISION-2.0-14B) only 43.2%. We further find that reasoning-oriented model variants gain up to +20 percentage points over instruction-tuned counterparts, medical domain specialization yields inconsistent gains over strong general-purpose baselines, all models degrade on multi-image questions, and performance varies notably across imaging modalities. By complementing the text-only KorMedMCQA benchmark, KorMedMCQA-V forms a unified evaluation suite for Korean medical reasoning across text-only and multimodal conditions. The dataset is available via Hugging Face Datasets: https://huggingface.co/datasets/seongsubae/KorMedMCQA-V.

연구 동기 및 목표

  • 2012–2023년의 이미지 기반 의학 질문을 포괄하는 한국어 면허 시험 스타일의 다중모달 MCQA 벤치마크를 제공합니다.
  • 일관된 제로샷 프로토콜 하에서 일반-목적, 의학 특화, 한국어 특화 등 다양한 비전-언어 모델을 평가합니다.
  • 영상 모듈별 성능, 단일-대 다중 이미지 질문, 모델의 추론 능력에 따라 성능을 분석합니다.
  • 텍스트만 포함된 KorMedMCQA 벤치마크를 보완하여 통합된 한국 의료 추론 평가 스위트를 구성합니다.

제안 방법

  • 공식 KMLE 항목에서 하나 이상의 관련 이미지를 포함하여 KorMedMCQA-V를 구성합니다(1,534개 문제; 2,043개 이미지).
  • 네 가지 VLM의 합의와 임상의 검토를 통해 영상 모달리티를 89.2% 합의로 주석화하고, 남은 경우는 전문가 재판으로 확정합니다.
  • 하나의 프롬프트와 JSON 출력으로 제로샷, 폐쇄형 설정에서 일반-의료-한국 특화 그룹에 걸쳐 51개의 VLM(독점형 및 오픈 소스)을 평가합니다.
  • 기본 이미지 전처리기를 사용한 균일한 평가 프로토콜을 활용합니다; 다중 이미지 질문은 시험 순서를 보존하고 이미지 간 근거를 합산하여 처리합니다.
  • 프롬프트, 모델 버전 및 하이퍼파라미터를 상세히 기술하여 재현성을 제공하고 데이터세트와 평가 코드를 공개합니다.

실험 결과

연구 질문

  • RQ1다양한 영상 모달리티에 걸쳐 한국어 면허 시험 스타일의 다중모달 질문에서 비전-언어 모델의 성능은 어떻게 나타나나요?
  • RQ2모델 규모, 명시적 추론 학습, 의학 도메인 적응이 한국어의 다중모달 의학 추론에 미치는 영향은 무엇인가요?
  • RQ3다중 이미지 추론은 단일 이미지 질문에 비해 성능에 어떤 영향을 미치나요?
  • RQ4한국어 특화 또는 의학 특화가 강력한 일반 목적 베이스라인보다 일관되게 성능을 향상시키나요?

주요 결과

  • 독점형 모델이 성능을 지배하며, Gemini-3.0-Pro가 메인 다중모달 벤치마크에서 전체 정확도 96.9%를, GPT-5가 93.9%를 달성합니다.
  • 오픈 소스 모델 중 Qwen3-VL-32B-Thinking이 83.7%의 전체 정확도에 도달하는 반면 한국 특화 모델은 뒤처집니다(예: VARCO-VISION-2.0-14B는 43.2%).
  • 추론 지향 변형은 지시 학습된 counterpart에 비해 최대 약 +20포인트 정도 성능을 향상시키며, 도메인 적응은 일관된 증가를 보이지 않고, 대체로 더 큰 모델이 더 잘 작동합니다.
  • 대부분의 모델은 다중 이미지 질문에서 어려움을 겪으며 단일 이미지 대비 성능이 저하됩니다(3개 이상 이미지에서 평균 57.0%에서 50.3%로 감소).
  • MRI와 PBS가 가장 쉬운 모달리티에 속하며 일부 모델은 100%에 근접하거나 이를 넘깁니다. 반면 NST, CT, 내시경은 더 어려움을 보이며, 모달리티 간 격차는 모델 군 간에 지속됩니다.
  • 텍스트+비전 혼합 벤치마크에서 텍스트 전용 항목이 종종 더 쉽지만, 텍스트와 비전 정확도 간 격차는 모델에 따라 다르며 한국어 특화 모델에서 더 큰 격차를 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.