Skip to main content
QUICK REVIEW

[論文レビュー] HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

Junying Chen, Gui, Chi|arXiv (Cornell University)|Jun 27, 2024
Natural Language Processing Techniques被引用数 8
ひとこと要約

論文はPubMedVisionを構築する。PubMedVisionはPubMedを基にした1.3Mの医療VQAデータセットで、unblinded MLLMリフォーマッターを用いて洗練され、HuatuoGPT-Vision(34B)を訓練して、オープンソースMLLMの中で医療マルチモーダル性能を上回ることを示す。

ABSTRACT

The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.

研究の動機と目的

  • 医療マルチモーダル学習におけるデータ品質と規模のギャップを動機づけ、解決する。
  • ノイズを低減したPubMedから大規模で高品質な医療VQAデータセットを作成する。
  • MLLM搭載のデータリフォーマット化が医療ビジョン-言語の整合性を改善することを実証する。

提案手法

  • unblinded MLLMリフォーマッター(GPT-4V)を用いてPubMed画像-テキストペアのノイズを低減する。
  • 914,960枚の画像とテキストキャプションから1.3Mの医療VQAサンプルでPubMedVisionを構築する。
  • プロンプトとシナリオベースのサンプリングを用いて2種類のVQAデータタイプ(Alignment VQAとInstruction-Tuning VQA)を生成する。
  • PubMedVision上でLLaVA-1.5-LLaMA3-8BをベースとしてHuatuoGPT-Vision(34B)を医療MLLMとして訓練し、バイリンガル医療データとHuatuoGPT-II知識を追加する。
  • 医療および一般のオープンソースMLLMを複数の医療VQAベンチマークおよびMMM Health & Medicineタスクで比較する。

実験結果

リサーチクエスチョン

  • RQ1PubMedVisionはオープンソースMLLMの医療マルチモーダル能力を大幅に向上させることができるか。
  • RQ2ブラインドと蒸留アプローチと比較して、unblindedデータリフォーマットはより高品質な医療VQAデータを生み出すか。
  • RQ3HuatuoGPT-Visionは既存のオープンソースモデルと比較して標準的な医療マルチモーダルベンチマークでどの程度の性能を示すか。
  • RQ4PubMedVisionは異なるMLLMアーキテクチャに転用可能か。

主な発見

モデルCTFPMRIOCTDerMicX線US平均
Med-Flamingo45.443.554.723.3NANANANA41.7
RadFM50.634.638.725.9NANANANA37.5
LLaVA-Med-7B51.448.656.824.7NANANANA45.4
Qwen-VL-Chat47.056.055.136.6NANANANA48.9
Yi-VL-34B53.058.947.339.5NANANANA49.7
LLaVA-v1.6-7B52.657.947.935.5NANANANA48.5
LLaVA-v1.6-13B55.858.951.936.6NANANANA50.8
LLaVA-v1.6-34B58.667.359.144.4NANANANA57.4
Our Training54.259.454.136.4NANANANA51.0
+ LLaVA_Med60.261.254.546.6NANANANA55.6
+ PubMedVision63.874.559.952.7NANANANA62.7
HuatuoGPT-Vision-34B68.176.963.558.2NANANANA66.7
  • PubMedVisionは医療VQAベンチマークを改善する。例として、PubMedVision強化モデルはベースラインLLaVA-v1.5-LLaMA3-8Bを大幅に上回る。
  • HuatuoGPT-Vision-34Bは複数のベンチマークでオープンソース医療MLLMの中で高い性能を発揮する。
  • PubMedVisionは医療VQAで従来のデータ手法より最大11.7%の絶対的な精度向上を提供する。
  • PubMedVisionはMMMU Health & Medicineトラックの性能を向上させ、8Bベースの34Bモデルに近づくか同等に近い。
  • データ品質評価はMLLM-Reformattedが他の手法より精度、関連性、完全性、有用性を高く示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。