QUICK REVIEW

[논문 리뷰] KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination

Byungjin Choi, Seongsu Bae|arXiv (Cornell University)|2026. 02. 14.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

KorMedMCQA-V는 1,534개의 문제와 2,043개의 이미지를 가진 한국식 시험 스타일의 다중모달 MCQA 벤치마크로, 제로샷 조건에서 비전-언어 모델을 평가하고 모달리티, 이미지 수, 모델 유형을 분석합니다.

ABSTRACT

We introduce KorMedMCQA-V, a Korean medical licensing-exam-style multimodal multiple-choice question answering benchmark for evaluating vision-language models (VLMs). The dataset consists of 1,534 questions with 2,043 associated images from Korean Medical Licensing Examinations (2012-2023), with about 30% containing multiple images requiring cross-image evidence integration. Images cover clinical modalities including X-ray, computed tomography (CT), electrocardiography (ECG), ultrasound, endoscopy, and other medical visuals. We benchmark over 50 VLMs across proprietary and open-source categories-spanning general-purpose, medical-specialized, and Korean-specialized families-under a unified zero-shot evaluation protocol. The best proprietary model (Gemini-3.0-Pro) achieves 96.9% accuracy, the best open-source model (Qwen3-VL-32B-Thinking) 83.7%, and the best Korean-specialized model (VARCO-VISION-2.0-14B) only 43.2%. We further find that reasoning-oriented model variants gain up to +20 percentage points over instruction-tuned counterparts, medical domain specialization yields inconsistent gains over strong general-purpose baselines, all models degrade on multi-image questions, and performance varies notably across imaging modalities. By complementing the text-only KorMedMCQA benchmark, KorMedMCQA-V forms a unified evaluation suite for Korean medical reasoning across text-only and multimodal conditions. The dataset is available via Hugging Face Datasets: https://huggingface.co/datasets/seongsubae/KorMedMCQA-V.

연구 동기 및 목표

2012–2023년의 이미지 기반 의학 질문을 포괄하는 한국어 면허 시험 스타일의 다중모달 MCQA 벤치마크를 제공합니다.
일관된 제로샷 프로토콜 하에서 일반-목적, 의학 특화, 한국어 특화 등 다양한 비전-언어 모델을 평가합니다.
영상 모듈별 성능, 단일-대 다중 이미지 질문, 모델의 추론 능력에 따라 성능을 분석합니다.
텍스트만 포함된 KorMedMCQA 벤치마크를 보완하여 통합된 한국 의료 추론 평가 스위트를 구성합니다.

제안 방법

공식 KMLE 항목에서 하나 이상의 관련 이미지를 포함하여 KorMedMCQA-V를 구성합니다(1,534개 문제; 2,043개 이미지).
네 가지 VLM의 합의와 임상의 검토를 통해 영상 모달리티를 89.2% 합의로 주석화하고, 남은 경우는 전문가 재판으로 확정합니다.
하나의 프롬프트와 JSON 출력으로 제로샷, 폐쇄형 설정에서 일반-의료-한국 특화 그룹에 걸쳐 51개의 VLM(독점형 및 오픈 소스)을 평가합니다.
기본 이미지 전처리기를 사용한 균일한 평가 프로토콜을 활용합니다; 다중 이미지 질문은 시험 순서를 보존하고 이미지 간 근거를 합산하여 처리합니다.
프롬프트, 모델 버전 및 하이퍼파라미터를 상세히 기술하여 재현성을 제공하고 데이터세트와 평가 코드를 공개합니다.

실험 결과

연구 질문

RQ1다양한 영상 모달리티에 걸쳐 한국어 면허 시험 스타일의 다중모달 질문에서 비전-언어 모델의 성능은 어떻게 나타나나요?
RQ2모델 규모, 명시적 추론 학습, 의학 도메인 적응이 한국어의 다중모달 의학 추론에 미치는 영향은 무엇인가요?
RQ3다중 이미지 추론은 단일 이미지 질문에 비해 성능에 어떤 영향을 미치나요?
RQ4한국어 특화 또는 의학 특화가 강력한 일반 목적 베이스라인보다 일관되게 성능을 향상시키나요?

주요 결과

독점형 모델이 성능을 지배하며, Gemini-3.0-Pro가 메인 다중모달 벤치마크에서 전체 정확도 96.9%를, GPT-5가 93.9%를 달성합니다.
오픈 소스 모델 중 Qwen3-VL-32B-Thinking이 83.7%의 전체 정확도에 도달하는 반면 한국 특화 모델은 뒤처집니다(예: VARCO-VISION-2.0-14B는 43.2%).
추론 지향 변형은 지시 학습된 counterpart에 비해 최대 약 +20포인트 정도 성능을 향상시키며, 도메인 적응은 일관된 증가를 보이지 않고, 대체로 더 큰 모델이 더 잘 작동합니다.
대부분의 모델은 다중 이미지 질문에서 어려움을 겪으며 단일 이미지 대비 성능이 저하됩니다(3개 이상 이미지에서 평균 57.0%에서 50.3%로 감소).
MRI와 PBS가 가장 쉬운 모달리티에 속하며 일부 모델은 100%에 근접하거나 이를 넘깁니다. 반면 NST, CT, 내시경은 더 어려움을 보이며, 모달리티 간 격차는 모델 군 간에 지속됩니다.
텍스트+비전 혼합 벤치마크에서 텍스트 전용 항목이 종종 더 쉽지만, 텍스트와 비전 정확도 간 격차는 모델에 따라 다르며 한국어 특화 모델에서 더 큰 격차를 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.