Skip to main content
QUICK REVIEW

[論文レビュー] Advancing Multimodal Medical Capabilities of Gemini

Lin Yang, Shawn Xu|arXiv (Cornell University)|May 6, 2024
Biomedical and Engineering Education被引用数 28
ひとこと要約

この研究は Med-Gemini を導入します。Gemini を基盤とした医療用にチューニングされたマルチモーダルモデルのファミリーで、2D/3D 放射線 imaging、病理組織像、眼科、皮膚科、ゲノミクスデータでファインチューニングされ、いくつかの医療タスクで最先端の結果を達成し、2D/3D レポート生成と多遺伝リスク予測を示しています。

ABSTRACT

Many clinical tasks require an understanding of specialized data, such as medical images and genomics, which is not typically found in general-purpose large multimodal models. Building upon Gemini's multimodal models, we develop several models within the new Med-Gemini family that inherit core capabilities of Gemini and are optimized for medical use via fine-tuning with 2D and 3D radiology, histopathology, ophthalmology, dermatology and genomic data. Med-Gemini-2D sets a new standard for AI-based chest X-ray (CXR) report generation based on expert evaluation, exceeding previous best results across two separate datasets by an absolute margin of 1% and 12%, where 57% and 96% of AI reports on normal cases, and 43% and 65% on abnormal cases, are evaluated as "equivalent or better" than the original radiologists' reports. We demonstrate the first ever large multimodal model-based report generation for 3D computed tomography (CT) volumes using Med-Gemini-3D, with 53% of AI reports considered clinically acceptable, although additional research is needed to meet expert radiologist reporting quality. Beyond report generation, Med-Gemini-2D surpasses the previous best performance in CXR visual question answering (VQA) and performs well in CXR classification and radiology VQA, exceeding SoTA or baselines on 17 of 20 tasks. In histopathology, ophthalmology, and dermatology image classification, Med-Gemini-2D surpasses baselines across 18 out of 20 tasks and approaches task-specific model performance. Beyond imaging, Med-Gemini-Polygenic outperforms the standard linear polygenic risk score-based approach for disease risk prediction and generalizes to genetically correlated diseases for which it has never been trained. Although further development and evaluation are necessary in the safety-critical medical domain, our results highlight the potential of Med-Gemini across a wide range of medical tasks.

研究の動機と目的

  • Gemini を医療分野にフォーカスしたファインチューニングで拡張し、多様な臨床モダリティ(2D/3D 画像、ゲノミクス、テキスト)を扱えるようにしつつ、一般的なマルチモーダル推論を維持する。
  • Med-Gemini を放射線診断、病理学、眼科、皮膚科、ゲノミクス全体でベンチマークし、臨床的有用性と一般化を評価する。
  • 2D/3D 放射線レポート生成、VQA、画像分類、ゲノムリスク予測をオープンベンチマークと専門家評価に対して評価する。
  • Med-Gemini がいくつかの臨床的に関連するタスクでタスク特化モデルに近づくまたは上回る可能性を示す。

提案手法

  • Gemini 1.5 Pro から Med-Gemini の派生モデル(2D、3D、Polygenic)を約700万サンプル、320万件の医療画像/症例のデータセットでファインチューニングする。
  • 2D、3D、ゲノミクスデータのための3つのカスタムビジョンエンコーダを使用して、マルチモーダル解釈を改善する。
  • 臨床における重要な放射線レポート生成タスクのために、キャプション生成または VQA タスクとしてファインチューニングを設定し、専門家評価を行う。
  • 放射線データを標準化された 2D スライスと 3D ボリュームに前処理する。ゲノム特徴(PRSs)を Polygenic タスク用の画像様表現に変換する。
  • 22 のデータセットを、5 タスクと 6 種類のモダリティで評価し、オープンデータおよび保持-out データセットを含む。

実験結果

リサーチクエスチョン

  • RQ1Med-Gemini は 2D 胸部 X 線と 3D CT ボリュームの専門家品質の放射線レポート生成を達成できるか?
  • RQ2Med-Gemini は放射線 VQA、画像分類、および病理学/眼科/皮膚科タスクで、ベースラインや SoTA と比較してどれほど性能が良いか?
  • RQ3Med-Gemini-Polygenic は標準的な PRS アプローチと比べて遺伝子表現に基づく疾患リスク予測を上回り、相関する疾患へ一般化できるか?
  • RQ4多様な医療データモダリティと保持-out データセットに対する Med-Gemini の一般化能力はどの程度か?

主な発見

  • Med-Gemini-2D は AI ベースの胸部 X 線レポート生成の新基準を設定し、2つのデータセットで絶対値で 1% および 12% の差を超え、正常ケースの AI レポートは放射線科医と同等またはそれ以上と判断された割合が 57% および 96%、異常ケースで 43% および 65%。
  • Med-Gemini-3D は 3D CT ボリュームで 53% の臨床的受容性を達成し、大規模なマルチモーダルモデルベースの 3D CT レポート生成の初期結果を示した(さらなる改善が必要)。
  • Med-Gemini-2D は胸部 X 線の VQA の前例のない水準を超え、CXR 分類と放射線 VQA で強い性能を示し、20 タスク中 17 で SoTA または ベースラインを上回った。
  • 病理学、眼科、皮膚科の画像分類では Med-Gemini-2D が 20 タスク中 18 タスクでベースラインを上回り、タスク固有モデルの性能に接近。
  • Med-Gemini-Polygenic は疾患リスク予測において標準的な線形 PRS アプローチを上回り、トレーニング中に見られなかった遺伝的に相関する疾患へ一般化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。