[論文レビュー] MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine
MedGPT-oss-20B はオープンウェイトの汎用ビジョン-ランゲージモデルで、生体医療向けの強力なマルチモーダル臨床推論を実現しつつ、コモデティGPU上での展開を可能にする3段階のトレーニングカリキュラムとオープンリソースを備える。
Biomedical multimodal assistants have the potential to unify radiology, pathology, and clinical-text reasoning, yet a critical deployment gap remains: top-performing systems are either closed-source or computationally prohibitive, precluding the on-premises deployment required for patient privacy and PHI compliance. We introduce MEDGPT-OSS, an open-weight, 20B-parameter generalist vision-language model designed to facilitate open research in clinical AI. Rather than relying on architectural complexity, MEDGPT-OSS pairs the GPT-oss language backbone with a visual front-end via a optimized, three-stage training curriculum. By progressively domain-adapting these modules through rigorous data curation and long-context multimodal alignment, we demonstrate that a 20B model can bridge the capacity gap. It successfully outperforms larger open medical models on out-of-distribution (OOD) multimodal reasoning and complex text-only clinical tasks. By unifying diverse modalities under a single instruction-following interface, MEDGPT-OSS maintains a parameter-efficient footprint fully compatible with commodity GPUs. We release the complete training recipe, open-weight checkpoints, and a rigorous evaluation harness to serve as a verifiable foundation for privacy-preserving, institution-specific clinical AI research.
研究の動機と目的
- 放射線診断、病理学、臨床テキストを統合するオープンで展開可能なジェネラリスト型バイオメディカルVLMの必要性を動機づける。
- 重いカスタムエンコーダを避けた軽量な20Bオープンウェイトモデルアーキテクチャを提案する。
- 一般目的モデルを医療領域へ橋渡しする3段階のトレーニングカリキュラムを示す。
- 展開性を保ちながら、OODマルチモーダルベンチマークで最新の性能を示す。
提案手法
- バニラ CLIP-ViT-L/14 の視覚エンコーダ、2層のMLP投影モジュール、GPT-oss 20B の言語バックボーンという3要素のモジュラーアーキテクチャを採用。
- 短文コンテキスト整合性(事前学習時にLLMを凍結)、長文コンテキスト中間訓練(全パラメータ更新)、混合モルティモーダル/テキスト命令調整という3段階カリキュラムを適用。
- 事前学習・中間訓練・命令調整の各段階で、大規模で多様なバイオメディカルモルティモーダルとテキストコーパスを編成・シーケンスし、評価データの漏洩を確保して回避。
- DeepSpeed ZeRO-3 を使用して8× NVIDIA B200 GPU で訓練し、AdamW、コサインLRデ decay、bf16、YaRN RoPE による長文コンテクスト grounding を実現し、131,072 のコンテキストを可能にする。
- VQA とテキストQA ベンチマークの厳密な一致スコアリングと決定論的デコードを用いた統一・自動推論ハーネスで評価し、臨床指向の放射線レポート指標を併用する。

実験結果
リサーチクエスチョン
- RQ1オープンウェイトの20BパラメータMLLMは、OODマルチモーダル推論タスクでより大きなオープン医療モデルと同等以上を達成できるか。
- RQ2視覚と語彉のコンポーネントを同時更新する3段階カリキュラムは、特注的なアーキテクチャ変更なしに医療領域適応を効果的に可能にするか。
- RQ3MedGPT-oss は、マルチモーダル診断推論、臨床テキストQA、放射線レポート生成の分野で、オープンベースラインと比較してどれほど性能を示すか。
- RQ4オープンウェイトと透明性のある評価を伴うオンプレミスの、プライバシー保護された臨床研究にモデル展開が適しているか。
主な発見
| Dataset | MedGPT-oss-20B | OctoMed | Hulu-Med | Lingshu | MedGemma | QoQ-Med |
|---|---|---|---|---|---|---|
| MedXQA (multimodal) | 49.23 | |||||
| SLAKE | 71.53 | 65.07 | 69.14 | 72.24 | 55.98 | 46.53 |
| MedFrameQA | 63.01 | 42.82 | 62.82 | 61.01 | 47.63 | 55.73 |
| MMMU-Med (dev) | 61.49 | 47.65 | 57.71 | 59.43 | 47.43 | 51.84 |
| MMMU-Med-Pro (4 opt) | 52.34 | 44.62 | 52.45 | 52.67 | 45.80 | 46.93 |
| MMMU-Med-Pro (10 opt) | 39.94 | 23.07 | 37.41 | 43.45 | 36.71 | 38.12 |
- MedGPT-oss-20B は、複数のOOD VQA ベンチマーク(MedFrameQA、MMMU-dev、MedXQA multimodal)で最先端または競合的な結果を達成し、しばしばより大規模なモデルを凌ぐ。
- 32Bモデルと同等またはそれを上回るタスクもあり、特にMedXQA(マルチモーダル)で49.23%の精度という顕著な優位を示す。
- テキストのみの医療QAでは MedXQA(25.38%)でSOTA、Medbullets(68.71%)でトップとなる。
- 胸部X線レポート生成では、32Bモデルと互角以上の性能を維持し、放射線科の整合性出力を堅牢に達成(RadGraph-F1 0.189、RaTEScore 0.522、1/RadCliQ-v1 0.803)。
- 文脈内学習の強さを示し、印象生成の0ショットから1ショットでの改善(47.22% → 55.60%)。
- このアプローチはオープンウェイトのチェックポイントと再現可能な評価ハーネスを提供し、プライバシー保護型のオンプレミス臨床研究を支援する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。