[논문 리뷰] MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine
MedGPT-oss-20B는 생의학 분야를 위한 개방 가중치의 일반ist 비전-언어 모델이다. 일반 GPU에서도 배치 가능하도록 강력한 다중 모달 임상 추론을 구현하며, 3단계 학습 커리큘럼과 공개 리소스를 갖춘다.
Biomedical multimodal assistants have the potential to unify radiology, pathology, and clinical-text reasoning, yet a critical deployment gap remains: top-performing systems are either closed-source or computationally prohibitive, precluding the on-premises deployment required for patient privacy and PHI compliance. We introduce MEDGPT-OSS, an open-weight, 20B-parameter generalist vision-language model designed to facilitate open research in clinical AI. Rather than relying on architectural complexity, MEDGPT-OSS pairs the GPT-oss language backbone with a visual front-end via a optimized, three-stage training curriculum. By progressively domain-adapting these modules through rigorous data curation and long-context multimodal alignment, we demonstrate that a 20B model can bridge the capacity gap. It successfully outperforms larger open medical models on out-of-distribution (OOD) multimodal reasoning and complex text-only clinical tasks. By unifying diverse modalities under a single instruction-following interface, MEDGPT-OSS maintains a parameter-efficient footprint fully compatible with commodity GPUs. We release the complete training recipe, open-weight checkpoints, and a rigorous evaluation harness to serve as a verifiable foundation for privacy-preserving, institution-specific clinical AI research.
연구 동기 및 목표
- 영상의학, 병리학 및 임상 텍스트를 통합하는 개방 가능하고 배포 가능한 일반ist 생의학 VLM의 필요성을 제고한다.
- 무거운 맞춤 인코더를 피하는 경량의 20B 개방 가중치 모델 아키텍처를 제안한다.
- 일반 목적 모델을 의학 도메인으로 확장하기 위한 3단계 학습 커리큘럼을 제시한다.
- 배포 가능성을 유지하면서 OOD 다중 모달 벤치마크에서 최첨단 성능을 입증한다.
제안 방법
- 표준 CLIP-ViT-L/14 시각 인코더, 2층 MLP 투영 모듈, 그리고 GPT-oss 20B 언어 백본으로 구성된 모듈식 3구조 아키텍처를 사용한다.
- 짧은 맥락 정렬(고정된 LLM으로의 사전 학습), 긴 맥락 중간 학습(전 파라미터 업데이트), 그리고 혼합 다중모달/텍스트 명령 조정의 3단계 커리큘럼을 채택한다.
- 사전 학습, 중간 학습, 지시-튜닝 단계에 걸쳐 크고 다양한 생의학 다중모달 및 텍스트 말뭉치를 선별하고 순서를 구성하여 평가 데이터 누출이 없도록 한다.
- YaRN RoPE를 통한 장맥락 바인딩을 가능하게 하면서 131,072 컨텍스트를 확보하기 위해 8× NVIDIA B200 GPU에서 DeepSpeed ZeRO-3로 AdamW를 사용하고 코사인 학습률 감소 및 bf16를 적용한다.
- VQA 및 텍스트 QA 벤치마크에 대해 결정적 디코딩과 엄격한 정확일치 점수 체계를 갖춘 단일화된 자동 추론 허브를 사용하여 평가하고, 임상 지향 방사선 보고 지표를 추가로 평가한다.

실험 결과
연구 질문
- RQ1개방 가중치의 20B 파라미터 MLLM이 더 큰 개방 의료 모델과 OOD 다중 모달 추론 과제에서 일치하거나 능가할 수 있는가?
- RQ2비전과 언어 구성요소의 공동 업데이트를 포함한 3단계 커리큘럼이 bespoke 아키텍처 변경 없이 의학 도메인 적응을 가능하게 하는가?
- RQ3MedGPT-oss가 다중모달 진단 추론, 임상 텍스트 QA, 방사선 보고 생성에서 개방 기준선과 비교해 얼마나 잘 수행하는가?
- RQ4모델 배포가 온프레미스에서 개방 가중치와 투명한 평가를 통해 프라이버시를 보장하는 임상 연구에 적합한가?
주요 결과
| Dataset | MedGPT-oss-20B | OctoMed | Hulu-Med | Lingshu | MedGemma | QoQ-Med |
|---|---|---|---|---|---|---|
| MedXQA (multimodal) | 49.23 | |||||
| SLAKE | 71.53 | 65.07 | 69.14 | 72.24 | 55.98 | 46.53 |
| MedFrameQA | 63.01 | 42.82 | 62.82 | 61.01 | 47.63 | 55.73 |
| MMMU-Med (dev) | 61.49 | 47.65 | 57.71 | 59.43 | 47.43 | 51.84 |
| MMMU-Med-Pro (4 opt) | 52.34 | 44.62 | 52.45 | 52.67 | 45.80 | 46.93 |
| MMMU-Med-Pro (10 opt) | 39.94 | 23.07 | 37.41 | 43.45 | 36.71 | 38.12 |
- MedGPT-oss-20B는 여러 가지 OOD VQA 벤치마크(MedFrameQA, MMMU-dev, MedXQA 다중모달)에서 최첨단 또는 경쟁력 있는 결과를 달성하며, 종종 더 큰 모델을 능가한다.
- 여러 작업에서 32B 모델과 일치하거나 능가하며, 다중모달 MedXQA에서 49.23%의 정확도로 두드러진 선두를 보인다.
- 텍스트 전용 의료 QA에서 MedGPT-oss-20B는 MedXQA에서 SOTA(25.38%)와 Medbullets에서 최상위 성능(68.71%)를 달성한다.
- 가슴 엑스레이 보고 생성에서 32B 모델과의 비교에서도 경쟁력을 유지하며, 방사선 진단 일관성 출력이 강력하다(RadGraph-F1 0.189, RaTEScore 0.522, 1/RadCliQ-v1 0.803).
- 모델은 맥락 내 학습이 강하며, 인상생성(impression)에서 0샷에서 1샷으로의 향상이(47.22%에서 55.60%) 나타난다.
- 이 연구는 공개 가중치 체크포인트와 재현 가능한 평가 해스를 제공하여 프라이버시 보존형 온프레미스 임상 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.