QUICK REVIEW

[論文レビュー] MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine

Kai Zhang, Zhengqing Yuan|arXiv (Cornell University)|Mar 1, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

MedGPT-oss-20B はオープンウェイトの汎用ビジョン-ランゲージモデルで、生体医療向けの強力なマルチモーダル臨床推論を実現しつつ、コモデティGPU上での展開を可能にする3段階のトレーニングカリキュラムとオープンリソースを備える。

ABSTRACT

Biomedical multimodal assistants have the potential to unify radiology, pathology, and clinical-text reasoning, yet a critical deployment gap remains: top-performing systems are either closed-source or computationally prohibitive, precluding the on-premises deployment required for patient privacy and PHI compliance. We introduce MEDGPT-OSS, an open-weight, 20B-parameter generalist vision-language model designed to facilitate open research in clinical AI. Rather than relying on architectural complexity, MEDGPT-OSS pairs the GPT-oss language backbone with a visual front-end via a optimized, three-stage training curriculum. By progressively domain-adapting these modules through rigorous data curation and long-context multimodal alignment, we demonstrate that a 20B model can bridge the capacity gap. It successfully outperforms larger open medical models on out-of-distribution (OOD) multimodal reasoning and complex text-only clinical tasks. By unifying diverse modalities under a single instruction-following interface, MEDGPT-OSS maintains a parameter-efficient footprint fully compatible with commodity GPUs. We release the complete training recipe, open-weight checkpoints, and a rigorous evaluation harness to serve as a verifiable foundation for privacy-preserving, institution-specific clinical AI research.

研究の動機と目的

放射線診断、病理学、臨床テキストを統合するオープンで展開可能なジェネラリスト型バイオメディカルVLMの必要性を動機づける。
重いカスタムエンコーダを避けた軽量な20Bオープンウェイトモデルアーキテクチャを提案する。
一般目的モデルを医療領域へ橋渡しする3段階のトレーニングカリキュラムを示す。
展開性を保ちながら、OODマルチモーダルベンチマークで最新の性能を示す。

提案手法

バニラ CLIP-ViT-L/14 の視覚エンコーダ、2層のMLP投影モジュール、GPT-oss 20B の言語バックボーンという3要素のモジュラーアーキテクチャを採用。
短文コンテキスト整合性（事前学習時にLLMを凍結）、長文コンテキスト中間訓練（全パラメータ更新）、混合モルティモーダル/テキスト命令調整という3段階カリキュラムを適用。
事前学習・中間訓練・命令調整の各段階で、大規模で多様なバイオメディカルモルティモーダルとテキストコーパスを編成・シーケンスし、評価データの漏洩を確保して回避。
DeepSpeed ZeRO-3 を使用して8× NVIDIA B200 GPU で訓練し、AdamW、コサインLRデ decay、bf16、YaRN RoPE による長文コンテクスト grounding を実現し、131,072 のコンテキストを可能にする。
VQA とテキストQA ベンチマークの厳密な一致スコアリングと決定論的デコードを用いた統一・自動推論ハーネスで評価し、臨床指向の放射線レポート指標を併用する。

Figure 1: Preliminary evaluation of visual encoders on medical multimodal benchmarks. As an initial investigation, we compared the vanilla CLIP backbone against domain-specific alternatives (BiomedCLIP, MedSigLIP) and SigLIP. The models utilize a GPT-oss-20B trained via LoRA (2-stage training follow

実験結果

リサーチクエスチョン

RQ1オープンウェイトの20BパラメータMLLMは、OODマルチモーダル推論タスクでより大きなオープン医療モデルと同等以上を達成できるか。
RQ2視覚と語彉のコンポーネントを同時更新する3段階カリキュラムは、特注的なアーキテクチャ変更なしに医療領域適応を効果的に可能にするか。
RQ3MedGPT-oss は、マルチモーダル診断推論、臨床テキストQA、放射線レポート生成の分野で、オープンベースラインと比較してどれほど性能を示すか。
RQ4オープンウェイトと透明性のある評価を伴うオンプレミスの、プライバシー保護された臨床研究にモデル展開が適しているか。

主な発見

Dataset	MedGPT-oss-20B	OctoMed	Hulu-Med	Lingshu	MedGemma	QoQ-Med
MedXQA (multimodal)	49.23
SLAKE	71.53	65.07	69.14	72.24	55.98	46.53
MedFrameQA	63.01	42.82	62.82	61.01	47.63	55.73
MMMU-Med (dev)	61.49	47.65	57.71	59.43	47.43	51.84
MMMU-Med-Pro (4 opt)	52.34	44.62	52.45	52.67	45.80	46.93
MMMU-Med-Pro (10 opt)	39.94	23.07	37.41	43.45	36.71	38.12

MedGPT-oss-20B は、複数のOOD VQA ベンチマーク（MedFrameQA、MMMU-dev、MedXQA multimodal）で最先端または競合的な結果を達成し、しばしばより大規模なモデルを凌ぐ。
32Bモデルと同等またはそれを上回るタスクもあり、特にMedXQA（マルチモーダル）で49.23%の精度という顕著な優位を示す。
テキストのみの医療QAでは MedXQA（25.38%）でSOTA、Medbullets（68.71%）でトップとなる。
胸部X線レポート生成では、32Bモデルと互角以上の性能を維持し、放射線科の整合性出力を堅牢に達成（RadGraph-F1 0.189、RaTEScore 0.522、1/RadCliQ-v1 0.803）。
文脈内学習の強さを示し、印象生成の0ショットから1ショットでの改善（47.22% → 55.60%）。
このアプローチはオープンウェイトのチェックポイントと再現可能な評価ハーネスを提供し、プライバシー保護型のオンプレミス臨床研究を支援する。

Figure 2: Evaluation of multi-view and longitudinal chest X-ray report generation on the MIMIC-CXR benchmark. Performance is measured across three clinically grounded metrics.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。