QUICK REVIEW

[논문 리뷰] MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine

Kai Zhang, Zhengqing Yuan|arXiv (Cornell University)|2026. 03. 01.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

MedGPT-oss-20B는 생의학 분야를 위한 개방 가중치의 일반ist 비전-언어 모델이다. 일반 GPU에서도 배치 가능하도록 강력한 다중 모달 임상 추론을 구현하며, 3단계 학습 커리큘럼과 공개 리소스를 갖춘다.

ABSTRACT

Biomedical multimodal assistants have the potential to unify radiology, pathology, and clinical-text reasoning, yet a critical deployment gap remains: top-performing systems are either closed-source or computationally prohibitive, precluding the on-premises deployment required for patient privacy and PHI compliance. We introduce MEDGPT-OSS, an open-weight, 20B-parameter generalist vision-language model designed to facilitate open research in clinical AI. Rather than relying on architectural complexity, MEDGPT-OSS pairs the GPT-oss language backbone with a visual front-end via a optimized, three-stage training curriculum. By progressively domain-adapting these modules through rigorous data curation and long-context multimodal alignment, we demonstrate that a 20B model can bridge the capacity gap. It successfully outperforms larger open medical models on out-of-distribution (OOD) multimodal reasoning and complex text-only clinical tasks. By unifying diverse modalities under a single instruction-following interface, MEDGPT-OSS maintains a parameter-efficient footprint fully compatible with commodity GPUs. We release the complete training recipe, open-weight checkpoints, and a rigorous evaluation harness to serve as a verifiable foundation for privacy-preserving, institution-specific clinical AI research.

연구 동기 및 목표

영상의학, 병리학 및 임상 텍스트를 통합하는 개방 가능하고 배포 가능한 일반ist 생의학 VLM의 필요성을 제고한다.
무거운 맞춤 인코더를 피하는 경량의 20B 개방 가중치 모델 아키텍처를 제안한다.
일반 목적 모델을 의학 도메인으로 확장하기 위한 3단계 학습 커리큘럼을 제시한다.
배포 가능성을 유지하면서 OOD 다중 모달 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

표준 CLIP-ViT-L/14 시각 인코더, 2층 MLP 투영 모듈, 그리고 GPT-oss 20B 언어 백본으로 구성된 모듈식 3구조 아키텍처를 사용한다.
짧은 맥락 정렬(고정된 LLM으로의 사전 학습), 긴 맥락 중간 학습(전 파라미터 업데이트), 그리고 혼합 다중모달/텍스트 명령 조정의 3단계 커리큘럼을 채택한다.
사전 학습, 중간 학습, 지시-튜닝 단계에 걸쳐 크고 다양한 생의학 다중모달 및 텍스트 말뭉치를 선별하고 순서를 구성하여 평가 데이터 누출이 없도록 한다.
YaRN RoPE를 통한 장맥락 바인딩을 가능하게 하면서 131,072 컨텍스트를 확보하기 위해 8× NVIDIA B200 GPU에서 DeepSpeed ZeRO-3로 AdamW를 사용하고 코사인 학습률 감소 및 bf16를 적용한다.
VQA 및 텍스트 QA 벤치마크에 대해 결정적 디코딩과 엄격한 정확일치 점수 체계를 갖춘 단일화된 자동 추론 허브를 사용하여 평가하고, 임상 지향 방사선 보고 지표를 추가로 평가한다.

Figure 1: Preliminary evaluation of visual encoders on medical multimodal benchmarks. As an initial investigation, we compared the vanilla CLIP backbone against domain-specific alternatives (BiomedCLIP, MedSigLIP) and SigLIP. The models utilize a GPT-oss-20B trained via LoRA (2-stage training follow

실험 결과

연구 질문

RQ1개방 가중치의 20B 파라미터 MLLM이 더 큰 개방 의료 모델과 OOD 다중 모달 추론 과제에서 일치하거나 능가할 수 있는가?
RQ2비전과 언어 구성요소의 공동 업데이트를 포함한 3단계 커리큘럼이 bespoke 아키텍처 변경 없이 의학 도메인 적응을 가능하게 하는가?
RQ3MedGPT-oss가 다중모달 진단 추론, 임상 텍스트 QA, 방사선 보고 생성에서 개방 기준선과 비교해 얼마나 잘 수행하는가?
RQ4모델 배포가 온프레미스에서 개방 가중치와 투명한 평가를 통해 프라이버시를 보장하는 임상 연구에 적합한가?

주요 결과

Dataset	MedGPT-oss-20B	OctoMed	Hulu-Med	Lingshu	MedGemma	QoQ-Med
MedXQA (multimodal)	49.23
SLAKE	71.53	65.07	69.14	72.24	55.98	46.53
MedFrameQA	63.01	42.82	62.82	61.01	47.63	55.73
MMMU-Med (dev)	61.49	47.65	57.71	59.43	47.43	51.84
MMMU-Med-Pro (4 opt)	52.34	44.62	52.45	52.67	45.80	46.93
MMMU-Med-Pro (10 opt)	39.94	23.07	37.41	43.45	36.71	38.12

MedGPT-oss-20B는 여러 가지 OOD VQA 벤치마크(MedFrameQA, MMMU-dev, MedXQA 다중모달)에서 최첨단 또는 경쟁력 있는 결과를 달성하며, 종종 더 큰 모델을 능가한다.
여러 작업에서 32B 모델과 일치하거나 능가하며, 다중모달 MedXQA에서 49.23%의 정확도로 두드러진 선두를 보인다.
텍스트 전용 의료 QA에서 MedGPT-oss-20B는 MedXQA에서 SOTA(25.38%)와 Medbullets에서 최상위 성능(68.71%)를 달성한다.
가슴 엑스레이 보고 생성에서 32B 모델과의 비교에서도 경쟁력을 유지하며, 방사선 진단 일관성 출력이 강력하다(RadGraph-F1 0.189, RaTEScore 0.522, 1/RadCliQ-v1 0.803).
모델은 맥락 내 학습이 강하며, 인상생성(impression)에서 0샷에서 1샷으로의 향상이(47.22%에서 55.60%) 나타난다.
이 연구는 공개 가중치 체크포인트와 재현 가능한 평가 해스를 제공하여 프라이버시 보존형 온프레미스 임상 연구를 지원한다.

Figure 2: Evaluation of multi-view and longitudinal chest X-ray report generation on the MIMIC-CXR benchmark. Performance is measured across three clinically grounded metrics.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.