QUICK REVIEW

[論文レビュー] HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

Junying Chen, Gui, Chi|arXiv (Cornell University)|Jun 27, 2024

Natural Language Processing Techniques被引用数 8

ひとこと要約

論文はPubMedVisionを構築する。PubMedVisionはPubMedを基にした1.3Mの医療VQAデータセットで、unblinded MLLMリフォーマッターを用いて洗練され、HuatuoGPT-Vision（34B）を訓練して、オープンソースMLLMの中で医療マルチモーダル性能を上回ることを示す。

ABSTRACT

The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.

研究の動機と目的

医療マルチモーダル学習におけるデータ品質と規模のギャップを動機づけ、解決する。
ノイズを低減したPubMedから大規模で高品質な医療VQAデータセットを作成する。
MLLM搭載のデータリフォーマット化が医療ビジョン-言語の整合性を改善することを実証する。

提案手法

unblinded MLLMリフォーマッター（GPT-4V）を用いてPubMed画像-テキストペアのノイズを低減する。
914,960枚の画像とテキストキャプションから1.3Mの医療VQAサンプルでPubMedVisionを構築する。
プロンプトとシナリオベースのサンプリングを用いて2種類のVQAデータタイプ（Alignment VQAとInstruction-Tuning VQA）を生成する。
PubMedVision上でLLaVA-1.5-LLaMA3-8BをベースとしてHuatuoGPT-Vision（34B）を医療MLLMとして訓練し、バイリンガル医療データとHuatuoGPT-II知識を追加する。
医療および一般のオープンソースMLLMを複数の医療VQAベンチマークおよびMMM Health & Medicineタスクで比較する。

実験結果

リサーチクエスチョン

RQ1PubMedVisionはオープンソースMLLMの医療マルチモーダル能力を大幅に向上させることができるか。
RQ2ブラインドと蒸留アプローチと比較して、unblindedデータリフォーマットはより高品質な医療VQAデータを生み出すか。
RQ3HuatuoGPT-Visionは既存のオープンソースモデルと比較して標準的な医療マルチモーダルベンチマークでどの程度の性能を示すか。
RQ4PubMedVisionは異なるMLLMアーキテクチャに転用可能か。

主な発見

モデル	CT	FP	MRI	OCT	Der	Mic	X線	US	平均
Med-Flamingo	45.4	43.5	54.7	23.3	NA	NA	NA	NA	41.7
RadFM	50.6	34.6	38.7	25.9	NA	NA	NA	NA	37.5
LLaVA-Med-7B	51.4	48.6	56.8	24.7	NA	NA	NA	NA	45.4
Qwen-VL-Chat	47.0	56.0	55.1	36.6	NA	NA	NA	NA	48.9
Yi-VL-34B	53.0	58.9	47.3	39.5	NA	NA	NA	NA	49.7
LLaVA-v1.6-7B	52.6	57.9	47.9	35.5	NA	NA	NA	NA	48.5
LLaVA-v1.6-13B	55.8	58.9	51.9	36.6	NA	NA	NA	NA	50.8
LLaVA-v1.6-34B	58.6	67.3	59.1	44.4	NA	NA	NA	NA	57.4
Our Training	54.2	59.4	54.1	36.4	NA	NA	NA	NA	51.0
+ LLaVA_Med	60.2	61.2	54.5	46.6	NA	NA	NA	NA	55.6
+ PubMedVision	63.8	74.5	59.9	52.7	NA	NA	NA	NA	62.7
HuatuoGPT-Vision-34B	68.1	76.9	63.5	58.2	NA	NA	NA	NA	66.7

PubMedVisionは医療VQAベンチマークを改善する。例として、PubMedVision強化モデルはベースラインLLaVA-v1.5-LLaMA3-8Bを大幅に上回る。
HuatuoGPT-Vision-34Bは複数のベンチマークでオープンソース医療MLLMの中で高い性能を発揮する。
PubMedVisionは医療VQAで従来のデータ手法より最大11.7%の絶対的な精度向上を提供する。
PubMedVisionはMMMU Health & Medicineトラックの性能を向上させ、8Bベースの34Bモデルに近づくか同等に近い。
データ品質評価はMLLM-Reformattedが他の手法より精度、関連性、完全性、有用性を高く示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。