Skip to main content
QUICK REVIEW

[論文レビュー] MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine

Kai Zhang, Zhengqing Yuan|arXiv (Cornell University)|Mar 1, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

MedGPT-oss-20B はオープンウェイトの汎用ビジョン-ランゲージモデルで、生体医療向けの強力なマルチモーダル臨床推論を実現しつつ、コモデティGPU上での展開を可能にする3段階のトレーニングカリキュラムとオープンリソースを備える。

ABSTRACT

Biomedical multimodal assistants have the potential to unify radiology, pathology, and clinical-text reasoning, yet a critical deployment gap remains: top-performing systems are either closed-source or computationally prohibitive, precluding the on-premises deployment required for patient privacy and PHI compliance. We introduce MEDGPT-OSS, an open-weight, 20B-parameter generalist vision-language model designed to facilitate open research in clinical AI. Rather than relying on architectural complexity, MEDGPT-OSS pairs the GPT-oss language backbone with a visual front-end via a optimized, three-stage training curriculum. By progressively domain-adapting these modules through rigorous data curation and long-context multimodal alignment, we demonstrate that a 20B model can bridge the capacity gap. It successfully outperforms larger open medical models on out-of-distribution (OOD) multimodal reasoning and complex text-only clinical tasks. By unifying diverse modalities under a single instruction-following interface, MEDGPT-OSS maintains a parameter-efficient footprint fully compatible with commodity GPUs. We release the complete training recipe, open-weight checkpoints, and a rigorous evaluation harness to serve as a verifiable foundation for privacy-preserving, institution-specific clinical AI research.

研究の動機と目的

  • 放射線診断、病理学、臨床テキストを統合するオープンで展開可能なジェネラリスト型バイオメディカルVLMの必要性を動機づける。
  • 重いカスタムエンコーダを避けた軽量な20Bオープンウェイトモデルアーキテクチャを提案する。
  • 一般目的モデルを医療領域へ橋渡しする3段階のトレーニングカリキュラムを示す。
  • 展開性を保ちながら、OODマルチモーダルベンチマークで最新の性能を示す。

提案手法

  • バニラ CLIP-ViT-L/14 の視覚エンコーダ、2層のMLP投影モジュール、GPT-oss 20B の言語バックボーンという3要素のモジュラーアーキテクチャを採用。
  • 短文コンテキスト整合性(事前学習時にLLMを凍結)、長文コンテキスト中間訓練(全パラメータ更新)、混合モルティモーダル/テキスト命令調整という3段階カリキュラムを適用。
  • 事前学習・中間訓練・命令調整の各段階で、大規模で多様なバイオメディカルモルティモーダルとテキストコーパスを編成・シーケンスし、評価データの漏洩を確保して回避。
  • DeepSpeed ZeRO-3 を使用して8× NVIDIA B200 GPU で訓練し、AdamW、コサインLRデ decay、bf16、YaRN RoPE による長文コンテクスト grounding を実現し、131,072 のコンテキストを可能にする。
  • VQA とテキストQA ベンチマークの厳密な一致スコアリングと決定論的デコードを用いた統一・自動推論ハーネスで評価し、臨床指向の放射線レポート指標を併用する。
Figure 1: Preliminary evaluation of visual encoders on medical multimodal benchmarks. As an initial investigation, we compared the vanilla CLIP backbone against domain-specific alternatives (BiomedCLIP, MedSigLIP) and SigLIP. The models utilize a GPT-oss-20B trained via LoRA (2-stage training follow
Figure 1: Preliminary evaluation of visual encoders on medical multimodal benchmarks. As an initial investigation, we compared the vanilla CLIP backbone against domain-specific alternatives (BiomedCLIP, MedSigLIP) and SigLIP. The models utilize a GPT-oss-20B trained via LoRA (2-stage training follow

実験結果

リサーチクエスチョン

  • RQ1オープンウェイトの20BパラメータMLLMは、OODマルチモーダル推論タスクでより大きなオープン医療モデルと同等以上を達成できるか。
  • RQ2視覚と語彉のコンポーネントを同時更新する3段階カリキュラムは、特注的なアーキテクチャ変更なしに医療領域適応を効果的に可能にするか。
  • RQ3MedGPT-oss は、マルチモーダル診断推論、臨床テキストQA、放射線レポート生成の分野で、オープンベースラインと比較してどれほど性能を示すか。
  • RQ4オープンウェイトと透明性のある評価を伴うオンプレミスの、プライバシー保護された臨床研究にモデル展開が適しているか。

主な発見

DatasetMedGPT-oss-20BOctoMedHulu-MedLingshuMedGemmaQoQ-Med
MedXQA (multimodal)49.23
SLAKE71.5365.0769.1472.2455.9846.53
MedFrameQA63.0142.8262.8261.0147.6355.73
MMMU-Med (dev)61.4947.6557.7159.4347.4351.84
MMMU-Med-Pro (4 opt)52.3444.6252.4552.6745.8046.93
MMMU-Med-Pro (10 opt)39.9423.0737.4143.4536.7138.12
  • MedGPT-oss-20B は、複数のOOD VQA ベンチマーク(MedFrameQA、MMMU-dev、MedXQA multimodal)で最先端または競合的な結果を達成し、しばしばより大規模なモデルを凌ぐ。
  • 32Bモデルと同等またはそれを上回るタスクもあり、特にMedXQA(マルチモーダル)で49.23%の精度という顕著な優位を示す。
  • テキストのみの医療QAでは MedXQA(25.38%)でSOTA、Medbullets(68.71%)でトップとなる。
  • 胸部X線レポート生成では、32Bモデルと互角以上の性能を維持し、放射線科の整合性出力を堅牢に達成(RadGraph-F1 0.189、RaTEScore 0.522、1/RadCliQ-v1 0.803)。
  • 文脈内学習の強さを示し、印象生成の0ショットから1ショットでの改善(47.22% → 55.60%)。
  • このアプローチはオープンウェイトのチェックポイントと再現可能な評価ハーネスを提供し、プライバシー保護型のオンプレミス臨床研究を支援する。
Figure 2: Evaluation of multi-view and longitudinal chest X-ray report generation on the MIMIC-CXR benchmark. Performance is measured across three clinically grounded metrics.
Figure 2: Evaluation of multi-view and longitudinal chest X-ray report generation on the MIMIC-CXR benchmark. Performance is measured across three clinically grounded metrics.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。