Skip to main content
QUICK REVIEW

[논문 리뷰] MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine

Kai Zhang, Zhengqing Yuan|arXiv (Cornell University)|2026. 03. 01.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

MedGPT-oss-20B는 생의학 분야를 위한 개방 가중치의 일반ist 비전-언어 모델이다. 일반 GPU에서도 배치 가능하도록 강력한 다중 모달 임상 추론을 구현하며, 3단계 학습 커리큘럼과 공개 리소스를 갖춘다.

ABSTRACT

Biomedical multimodal assistants have the potential to unify radiology, pathology, and clinical-text reasoning, yet a critical deployment gap remains: top-performing systems are either closed-source or computationally prohibitive, precluding the on-premises deployment required for patient privacy and PHI compliance. We introduce MEDGPT-OSS, an open-weight, 20B-parameter generalist vision-language model designed to facilitate open research in clinical AI. Rather than relying on architectural complexity, MEDGPT-OSS pairs the GPT-oss language backbone with a visual front-end via a optimized, three-stage training curriculum. By progressively domain-adapting these modules through rigorous data curation and long-context multimodal alignment, we demonstrate that a 20B model can bridge the capacity gap. It successfully outperforms larger open medical models on out-of-distribution (OOD) multimodal reasoning and complex text-only clinical tasks. By unifying diverse modalities under a single instruction-following interface, MEDGPT-OSS maintains a parameter-efficient footprint fully compatible with commodity GPUs. We release the complete training recipe, open-weight checkpoints, and a rigorous evaluation harness to serve as a verifiable foundation for privacy-preserving, institution-specific clinical AI research.

연구 동기 및 목표

  • 영상의학, 병리학 및 임상 텍스트를 통합하는 개방 가능하고 배포 가능한 일반ist 생의학 VLM의 필요성을 제고한다.
  • 무거운 맞춤 인코더를 피하는 경량의 20B 개방 가중치 모델 아키텍처를 제안한다.
  • 일반 목적 모델을 의학 도메인으로 확장하기 위한 3단계 학습 커리큘럼을 제시한다.
  • 배포 가능성을 유지하면서 OOD 다중 모달 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

  • 표준 CLIP-ViT-L/14 시각 인코더, 2층 MLP 투영 모듈, 그리고 GPT-oss 20B 언어 백본으로 구성된 모듈식 3구조 아키텍처를 사용한다.
  • 짧은 맥락 정렬(고정된 LLM으로의 사전 학습), 긴 맥락 중간 학습(전 파라미터 업데이트), 그리고 혼합 다중모달/텍스트 명령 조정의 3단계 커리큘럼을 채택한다.
  • 사전 학습, 중간 학습, 지시-튜닝 단계에 걸쳐 크고 다양한 생의학 다중모달 및 텍스트 말뭉치를 선별하고 순서를 구성하여 평가 데이터 누출이 없도록 한다.
  • YaRN RoPE를 통한 장맥락 바인딩을 가능하게 하면서 131,072 컨텍스트를 확보하기 위해 8× NVIDIA B200 GPU에서 DeepSpeed ZeRO-3로 AdamW를 사용하고 코사인 학습률 감소 및 bf16를 적용한다.
  • VQA 및 텍스트 QA 벤치마크에 대해 결정적 디코딩과 엄격한 정확일치 점수 체계를 갖춘 단일화된 자동 추론 허브를 사용하여 평가하고, 임상 지향 방사선 보고 지표를 추가로 평가한다.
Figure 1: Preliminary evaluation of visual encoders on medical multimodal benchmarks. As an initial investigation, we compared the vanilla CLIP backbone against domain-specific alternatives (BiomedCLIP, MedSigLIP) and SigLIP. The models utilize a GPT-oss-20B trained via LoRA (2-stage training follow
Figure 1: Preliminary evaluation of visual encoders on medical multimodal benchmarks. As an initial investigation, we compared the vanilla CLIP backbone against domain-specific alternatives (BiomedCLIP, MedSigLIP) and SigLIP. The models utilize a GPT-oss-20B trained via LoRA (2-stage training follow

실험 결과

연구 질문

  • RQ1개방 가중치의 20B 파라미터 MLLM이 더 큰 개방 의료 모델과 OOD 다중 모달 추론 과제에서 일치하거나 능가할 수 있는가?
  • RQ2비전과 언어 구성요소의 공동 업데이트를 포함한 3단계 커리큘럼이 bespoke 아키텍처 변경 없이 의학 도메인 적응을 가능하게 하는가?
  • RQ3MedGPT-oss가 다중모달 진단 추론, 임상 텍스트 QA, 방사선 보고 생성에서 개방 기준선과 비교해 얼마나 잘 수행하는가?
  • RQ4모델 배포가 온프레미스에서 개방 가중치와 투명한 평가를 통해 프라이버시를 보장하는 임상 연구에 적합한가?

주요 결과

DatasetMedGPT-oss-20BOctoMedHulu-MedLingshuMedGemmaQoQ-Med
MedXQA (multimodal)49.23
SLAKE71.5365.0769.1472.2455.9846.53
MedFrameQA63.0142.8262.8261.0147.6355.73
MMMU-Med (dev)61.4947.6557.7159.4347.4351.84
MMMU-Med-Pro (4 opt)52.3444.6252.4552.6745.8046.93
MMMU-Med-Pro (10 opt)39.9423.0737.4143.4536.7138.12
  • MedGPT-oss-20B는 여러 가지 OOD VQA 벤치마크(MedFrameQA, MMMU-dev, MedXQA 다중모달)에서 최첨단 또는 경쟁력 있는 결과를 달성하며, 종종 더 큰 모델을 능가한다.
  • 여러 작업에서 32B 모델과 일치하거나 능가하며, 다중모달 MedXQA에서 49.23%의 정확도로 두드러진 선두를 보인다.
  • 텍스트 전용 의료 QA에서 MedGPT-oss-20B는 MedXQA에서 SOTA(25.38%)와 Medbullets에서 최상위 성능(68.71%)를 달성한다.
  • 가슴 엑스레이 보고 생성에서 32B 모델과의 비교에서도 경쟁력을 유지하며, 방사선 진단 일관성 출력이 강력하다(RadGraph-F1 0.189, RaTEScore 0.522, 1/RadCliQ-v1 0.803).
  • 모델은 맥락 내 학습이 강하며, 인상생성(impression)에서 0샷에서 1샷으로의 향상이(47.22%에서 55.60%) 나타난다.
  • 이 연구는 공개 가중치 체크포인트와 재현 가능한 평가 해스를 제공하여 프라이버시 보존형 온프레미스 임상 연구를 지원한다.
Figure 2: Evaluation of multi-view and longitudinal chest X-ray report generation on the MIMIC-CXR benchmark. Performance is measured across three clinically grounded metrics.
Figure 2: Evaluation of multi-view and longitudinal chest X-ray report generation on the MIMIC-CXR benchmark. Performance is measured across three clinically grounded metrics.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.