Skip to main content
QUICK REVIEW

[論文レビュー] A Foundational Multimodal Vision Language AI Assistant for Human Pathology

Ming Y. Lu, Bowen Chen|arXiv (Cornell University)|Dec 13, 2023
Artificial Intelligence in Healthcare and Education被引用数 15
ひとこと要約

PathChat は UNI由来の視覚エンコーダを基盤とし、13B の LLM に接続された pathology 用の vision-language AI アシスタントで、257k の pathology instructions で学習され、臨床コンテキストが提供された場合に特に、複数選択式およびオープンエンドの病理問題でベースラインを上回ります。

ABSTRACT

The field of computational pathology has witnessed remarkable progress in the development of both task-specific predictive models and task-agnostic self-supervised vision encoders. However, despite the explosive growth of generative artificial intelligence (AI), there has been limited study on building general purpose, multimodal AI assistants tailored to pathology. Here we present PathChat, a vision-language generalist AI assistant for human pathology using an in-house developed foundational vision encoder pretrained on 100 million histology images from over 100,000 patient cases and 1.18 million pathology image-caption pairs. The vision encoder is then combined with a pretrained large language model and the whole system is finetuned on over 250,000 diverse disease agnostic visual language instructions. We compare PathChat against several multimodal vision language AI assistants as well as GPT4V, which powers the commercially available multimodal general purpose AI assistant ChatGPT-4. When relevant clinical context is provided with the histology image, PathChat achieved a diagnostic accuracy of 87% on multiple-choice questions based on publicly available cases of diverse tissue origins and disease models. Additionally, using open-ended questions and human expert evaluation, we found that overall PathChat produced more accurate and pathologist-preferable responses to diverse queries related to pathology. As an interactive and general vision language AI assistant that can flexibly handle both visual and natural language inputs, PathChat can potentially find impactful applications in pathology education, research, and human-in-the-loop clinical decision making.

研究の動機と目的

  • 病理に特化した汎用のマルチモーダルAIアシスタントの実現と活用を促進する。
  • 病理学を基盤とした vision encoder と大規模言語モデルを結合して PathChat を開発する。
  • 微調整のために大規模な病理特化指示データセットを編成・活用する。
  • 診断および対話タスク全般で、オープンソースおよび商用のマルチモーダルモデルと PathChat を評価する。

提案手法

  • 100百万を超える組織病理画像で事前学習済みの starting vision encoder として UNI を用いる。
  • 1.18百万の病理画像-caption ペアで vision-language 対応エンコーダ (CONCH-Large) を微調整する。
  • 視覚エンコーダを multimodal projector モジュールを介して 13B パラメータの事前学習済み LLM に接続する。
  • 組み合わせた MLLM を 257k pathology instructions (PathChatInstruct) のデータセットで微調整する。
  • 複数の選択式診断問題およびオープンエンドの質問で PathChat を LLaVA、LLaVA-Med、GPT4V と比較評価し、文脈を考慮したシナリオを含む。

実験結果

リサーチクエスチョン

  • RQ1PathChatInstruct を超えるタスク特化の微調整を必要とせず、ゼロショットまたは少数ショット設定で病理組織画像を診断できるか?
  • RQ2顕微鏡診断とオープンエンドの病理問において、一般目的および生物医療専門のMLLMと比べて PathChat はどう機能するか?
  • RQ3臨床コンテキストを提供することで診断精度と PathChat アシスタントの有用性は向上するか?
  • RQ4顕微鏡、診断、臨床知識、補助検査分類における PathChat の相対的な強みと弱みは何か?

主な発見

  • PathChat は画像のみの選択式問題で 70.8% の正解率、臨床コンテキストを含む場合は 81.2% の正解率を、結合病理ベンチマークで達成。
  • PathChat は画像のみおよび画像+文脈の設定の両方で LLaVA 1.5 および LLaVA-Med よりも優れている。
  • オープンエンドの質問では PathChat は総合正解率 86.1% を達成し、GPT4V (59.1%)、LLaVA 1.5 (42.6%)、LLaVA-Med (50.4%) を上回る。
  • PathChat は Microscopy および Diagnosis のカテゴリで特に高い性能を示し、それらの領域で GPT4V より高い正解率を持つ一方、GPT4V は Clinical および Ancillary Testing の質問で優れる。
  • PathChat はインタラクティブな多ターン対話と人間-in-ループの鑑別診断ワークフローをサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。