[論文レビュー] HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
論文はPubMedVisionを構築する。PubMedVisionはPubMedを基にした1.3Mの医療VQAデータセットで、unblinded MLLMリフォーマッターを用いて洗練され、HuatuoGPT-Vision(34B)を訓練して、オープンソースMLLMの中で医療マルチモーダル性能を上回ることを示す。
The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.
研究の動機と目的
- 医療マルチモーダル学習におけるデータ品質と規模のギャップを動機づけ、解決する。
- ノイズを低減したPubMedから大規模で高品質な医療VQAデータセットを作成する。
- MLLM搭載のデータリフォーマット化が医療ビジョン-言語の整合性を改善することを実証する。
提案手法
- unblinded MLLMリフォーマッター(GPT-4V)を用いてPubMed画像-テキストペアのノイズを低減する。
- 914,960枚の画像とテキストキャプションから1.3Mの医療VQAサンプルでPubMedVisionを構築する。
- プロンプトとシナリオベースのサンプリングを用いて2種類のVQAデータタイプ(Alignment VQAとInstruction-Tuning VQA)を生成する。
- PubMedVision上でLLaVA-1.5-LLaMA3-8BをベースとしてHuatuoGPT-Vision(34B)を医療MLLMとして訓練し、バイリンガル医療データとHuatuoGPT-II知識を追加する。
- 医療および一般のオープンソースMLLMを複数の医療VQAベンチマークおよびMMM Health & Medicineタスクで比較する。
実験結果
リサーチクエスチョン
- RQ1PubMedVisionはオープンソースMLLMの医療マルチモーダル能力を大幅に向上させることができるか。
- RQ2ブラインドと蒸留アプローチと比較して、unblindedデータリフォーマットはより高品質な医療VQAデータを生み出すか。
- RQ3HuatuoGPT-Visionは既存のオープンソースモデルと比較して標準的な医療マルチモーダルベンチマークでどの程度の性能を示すか。
- RQ4PubMedVisionは異なるMLLMアーキテクチャに転用可能か。
主な発見
| モデル | CT | FP | MRI | OCT | Der | Mic | X線 | US | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| Med-Flamingo | 45.4 | 43.5 | 54.7 | 23.3 | NA | NA | NA | NA | 41.7 |
| RadFM | 50.6 | 34.6 | 38.7 | 25.9 | NA | NA | NA | NA | 37.5 |
| LLaVA-Med-7B | 51.4 | 48.6 | 56.8 | 24.7 | NA | NA | NA | NA | 45.4 |
| Qwen-VL-Chat | 47.0 | 56.0 | 55.1 | 36.6 | NA | NA | NA | NA | 48.9 |
| Yi-VL-34B | 53.0 | 58.9 | 47.3 | 39.5 | NA | NA | NA | NA | 49.7 |
| LLaVA-v1.6-7B | 52.6 | 57.9 | 47.9 | 35.5 | NA | NA | NA | NA | 48.5 |
| LLaVA-v1.6-13B | 55.8 | 58.9 | 51.9 | 36.6 | NA | NA | NA | NA | 50.8 |
| LLaVA-v1.6-34B | 58.6 | 67.3 | 59.1 | 44.4 | NA | NA | NA | NA | 57.4 |
| Our Training | 54.2 | 59.4 | 54.1 | 36.4 | NA | NA | NA | NA | 51.0 |
| + LLaVA_Med | 60.2 | 61.2 | 54.5 | 46.6 | NA | NA | NA | NA | 55.6 |
| + PubMedVision | 63.8 | 74.5 | 59.9 | 52.7 | NA | NA | NA | NA | 62.7 |
| HuatuoGPT-Vision-34B | 68.1 | 76.9 | 63.5 | 58.2 | NA | NA | NA | NA | 66.7 |
- PubMedVisionは医療VQAベンチマークを改善する。例として、PubMedVision強化モデルはベースラインLLaVA-v1.5-LLaMA3-8Bを大幅に上回る。
- HuatuoGPT-Vision-34Bは複数のベンチマークでオープンソース医療MLLMの中で高い性能を発揮する。
- PubMedVisionは医療VQAで従来のデータ手法より最大11.7%の絶対的な精度向上を提供する。
- PubMedVisionはMMMU Health & Medicineトラックの性能を向上させ、8Bベースの34Bモデルに近づくか同等に近い。
- データ品質評価はMLLM-Reformattedが他の手法より精度、関連性、完全性、有用性を高く示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。