[論文レビュー] Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models
この研究は、胃腸科のボード試験風質問におけるLLMとVLMの医療推論を評価し、独自モデル、オープンソースモデル、量子化モデルを、画像の有無およびプロンプトの有無で比較します。
Background and Aims: This study evaluates the medical reasoning performance of large language models (LLMs) and vision language models (VLMs) in gastroenterology. Methods: We used 300 gastroenterology board exam-style multiple-choice questions, 138 of which contain images to systematically assess the impact of model configurations and parameters and prompt engineering strategies utilizing GPT-3.5. Next, we assessed the performance of proprietary and open-source LLMs (versions), including GPT (3.5, 4, 4o, 4omini), Claude (3, 3.5), Gemini (1.0), Mistral, Llama (2, 3, 3.1), Mixtral, and Phi (3), across different interfaces (web and API), computing environments (cloud and local), and model precisions (with and without quantization). Finally, we assessed accuracy using a semiautomated pipeline. Results: Among the proprietary models, GPT-4o (73.7%) and Claude3.5-Sonnet (74.0%) achieved the highest accuracy, outperforming the top open-source models: Llama3.1-405b (64%), Llama3.1-70b (58.3%), and Mixtral-8x7b (54.3%). Among the quantized open-source models, the 6-bit quantized Phi3-14b (48.7%) performed best. The scores of the quantized models were comparable to those of the full-precision models Llama2-7b, Llama2--13b, and Gemma2-9b. Notably, VLM performance on image-containing questions did not improve when the images were provided and worsened when LLM-generated captions were provided. In contrast, a 10% increase in accuracy was observed when images were accompanied by human-crafted image descriptions. Conclusion: In conclusion, while LLMs exhibit robust zero-shot performance in medical reasoning, the integration of visual data remains a challenge for VLMs. Effective deployment involves carefully determining optimal model configurations, encouraging users to consider either the high performance of proprietary models or the flexible adaptability of open-source models.
研究の動機と目的
- 胃腸科におけるボード風質問(300題、138題は画像を含む)を用いて、LLMおよびVLMの医療推論性能を評価する。
- 独自モデル、オープンソース、量子化モデルの構成を系統的に比較する。
- VLM/LLMの性能に対する画像とキャプションの影響を評価する。
- prompts、インターフェース、計算環境がモデルの正確さに与える影響を探る。
提案手法
- 300題の胃腸科ボード風MCQを用いてモデルの性能を検証する。
- 複数のモデルファミリーを評価する:GPT (3.5、4、4o、4omini)、Claude (3、3.5)、Gemini (1.0)、Mistral、Llama (2、3、3.1)、Mixtral、Phi (3)。
- インターフェース(ウェブ、API)、計算環境(クラウド、ローカル)、精度(量子化 vs フル精度)を横断してテストする。
- 半自動化パイプラインを用いて正確さを評価する。
実験結果
リサーチクエスチョン
- RQ1独自モデルとオープンソースLLMは、胃腸科の質問の正確さでどのように比較されるか?
- RQ2画像内容がVLM/LLMの性能に与える影響はどの程度か、キャプションは有効か?
- RQ3モデルの量子化は、フル精度モデルと比較して性能にどのような影響を与えるか?
- RQ4どのモデル構成とプロンプトが、胃腸科における医療推論の正確さを最大化するか?
主な発見
- GPT-4oは73.7%の正確さ、Claude3.5-Sonnetは74.0%の正確さを独自モデルの中で達成。
- オープンソースの上位モデルは64%(Llama3.1-405b)と58.3%(Llama3.1-70b)を達成。
- 量子化Phi3-14b(6-bit)は48.7%の正確さを達成し、フル精度のLlama2-7b、Llama2-13b、Gemma2-9bと同等の性能。
- 画像を含む質問でのVLMの性能は、画像やLLM生成キャプションを用いても改善されず、人間作成の画像説明で10%の正確さの向上が見られた。
- 全体として、LLMはゼロショットの医療推論に強さを示すが、視覚データの統合はVLMにとって依然として難しい。
- 本研究は高性能な独自モデルと適応性の高いオープンソースオプションの選択に関する指針を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。