QUICK REVIEW

[論文レビュー] LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Chunyuan Li, Cliff Wong|arXiv (Cornell University)|Jun 1, 2023

Multimodal Machine Learning Applications被引用数 222

ひとこと要約

LLaVA-Medは一般領域のビジョン-言語モデルを二段階のカリキュラムで生物医学分野へ適応させ、GPT-4 が生成したデータを用いた指示-チューニングにより、オープンエンドな生物医学ビジュアル対話を15時間未満で実現する。

ABSTRACT

Conversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs from the public web, but such general-domain vision-language models still lack sophistication in understanding and conversing about biomedical images. In this paper, we propose a cost-efficient approach for training a vision-language conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med exhibits excellent multimodal conversational capability and can follow open-ended instruction to assist with inquiries about a biomedical image. On three standard biomedical visual question answering datasets, LLaVA-Med outperforms previous supervised state-of-the-art on certain metrics. To facilitate biomedical multimodal research, we will release our instruction-following data and the LLaVA-Med model.

研究の動機と目的

固定的な QA を超えて生物医学画像を議論できるオープンエンドな生物医学のマルチモーダル対話エージェントの構築を促進する。
大規模な生物医学の画像-テキストデータ（PMC-15M）を活用して、手動ラベリングなしで多様な指示追従データを作成する。
一般領域のVLモデルを生物医学ドメインに効率的に適応させる二段階カリキュラムを開発する。
ドメイン特化の指示チューニングがオープンエンドの対話性能と競合的なVQA性能を向上させることを示す。
生物医学マルチモーダル研究を促進するオープンソースリソース（指示追従データとコード）を提供する。

提案手法

PMC-15M の画像-キャプション対をサンプリングし、キャプションから多様な指示を生成するために GPT-4 を用いて、生物医学マルチモーダル指示追従データを構築する。
二段階カリキュラムを適用する：Stage 1 では、線形射影を微調整して生物医学語彙を揃えるため、重みを凍結したまま生物医学概念特徴の整合を行う。
Stage 2 では、視覚エンコーダを凍結したまま、GPT-4 生成の指示追従データ上で射影と言語モデルのエンドツーエンドの指示チューニングを行う。
下流タスクの性能を向上させるため、3つの生物医学 VQA データセットでモデルをファインチューニングする。
オープンエンドの対話と VQA ベンチマークを用いて評価し、LLaVA および SOTA 手法と比較する。

実験結果

リサーチクエスチョン

RQ1一般領域のマルチモーダルモデルを生物医学の画像に効果的に適応させてオープンエンドな対話を実現できるか？
RQ2GPT-4 生成の指示追従データは生物医学マルチモーダル対話能力を向上させるか？
RQ3カリキュラム段階とデータ規模が、生物医学 VQA のゼロショットおよびファインチューニング性能に与える影響は？
RQ4標準的な生物医学 VQA データセットにおける LLaVA-Med の性能は、教師ありの SoTA と比較してどうか？
RQ5このアプローチは手頃なコストで、他の垂直領域にも一般化可能か？

主な発見

60K-IM を含む 60K 件の指示サンプルによる二段階トレーニングとインライン記述は、彼らのアブレーションの中で最良の性能を示した。
ファインチューニング後、LLaVA-Med は複数の生物医学 VQA ベンチマークで一般ドメインの LLaVA を上回る。
Stage 1 のみは生物医学語彙の整合を向上させるが、頑健な指示追従には不十分である。
GPT-4 の参照と比較して、最良の設定を適用した LLaVA-Med は、評価設定でGPT-4の測定性能の約半分に到達する。
学習時間は短く、Stage 1 は約7時間、Stage 2 は約8時間、8台の A100 GPU で。
研究を促進するため、オープンソースの指示追従データとコードを公開する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。