[論文レビュー] Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining
MOTORは一般的および特定の医療知識を統合した知識強化型のマルチモーダル事前学習パラダイムを導入し、単一の医療基盤モデルで多様なタスクの理解と生成を可能にし、医療マルチモーダルベンチマークでゼロショットと微調整の性能を強力に発揮します。
Medical artificial general intelligence (MAGI) enables one foundation model to solve different medical tasks, which is very practical in the medical domain. It can significantly reduce the requirement of large amounts of task-specific data by sufficiently sharing medical knowledge among different tasks. However, due to the challenges of designing strongly generalizable models with limited and complex medical data, most existing approaches tend to develop task-specific models. To take a step towards MAGI, we propose a new paradigm called Medical-knOwledge-enhanced mulTimOdal pretRaining (MOTOR). In MOTOR, we combine two kinds of basic medical knowledge, i.e., general and specific knowledge, in a complementary manner to boost the general pretraining process. As a result, the foundation model with comprehensive basic knowledge can learn compact representations from pretraining radiographic data for better cross-modal alignment. MOTOR unifies the understanding and generation, which are two kinds of core intelligence of an AI system, into a single medical foundation model, to flexibly handle more diverse medical tasks. To enable a comprehensive evaluation and facilitate further research, we construct a medical multimodal benchmark including a wide range of downstream tasks, such as chest x-ray report generation and medical visual question answering. Extensive experiments on our benchmark show that MOTOR obtains promising results through simple task-oriented adaptation. The visualization shows that the injected knowledge successfully highlights key information in the medical data, demonstrating the excellent interpretability of MOTOR. Our MOTOR successfully mimics the human practice of fulfilling a "medical student" to accelerate the process of becoming a "specialist". We believe that our work makes a significant stride in realizing MAGI.
研究の動機と目的
- MAGI(医療人工知能一般知能)の必要性を動機づけ、タスク特化データへの依存を減らす。
- 一般的および特定の医療知識を注入する知識強化型マルチモーダル事前学習パラダイム(MOTOR)を提案する。
- 単一の基盤モデルを用いて、複数の下流医療タスクで理解と生成の両方を行えるようにする。
- 理解と生成のタスクを網羅する総合的な医療マルチモーダルベンチマークを構築し、MAGI可能なモデルを評価する。
- 解釈性と知識駆動型アテンションを、跨モーダル整合性の改善の証拠として示す。
提案手法
- BLIP風のマルチモーダル事前学習フレームワークを4つの単一モーダルエンコーダ(画像、レポート、一般知識、特定知識)で拡張する。
- 3つの跨モーダルエンコーダ(画像–レポート、GK–画像、SK–画像)と生成のためのレポートデコーダを導入する。
- 一般知識(GK)を用いて画像特徴を強化し、レポートキューからインスタンス関連の特定知識(SK)を取り出して特徴を洗練する。
- データとGK/SKを結ぶためのテキストベースの多ラベル分類(MLC)事前学習目的を組み込む。
- BLIPに従いITC、ITM、LMをコア事前学習タスクとして採用し、GK/SKガイド付きの強化を行う。
- 画像–レポート検索、レポート生成、診断分類、医療VQAを含む医療マルチモーダルベンチマークで評価する。
実験結果
リサーチクエスチョン
- RQ1単一の医療基盤モデルは一般知識と特定知識の両方を活用して、理解と生成という多様なモダリティタスクを遂行できるか。
- RQ2知識強化型事前学習は、知識なしのベースラインと比べて跨モーダル整合性と下流タスク性能を改善するか。
- RQ3医療基盤モデルは共通の事前学習パラダイムを用いて、放射線診断、病名推定、VQAといったタスクへ一般化できる程度はどれほどか。
主な発見
- MOTORはタスク全体で最良または競合的な結果を達成し、知識なしバリアントと比較してゼロショット・微調整の両方で大きく上回る。
- MIMIC-CXRでの画像–レポート検索ではGKとSKの両方が効果をもたらし、MOTOR(本手法)はいくつかの構成でトップまたはほぼトップのR@kスコアを達成(ゼロショット・微調整などの設定)。
- IU-Xrayでの医療レポート生成ではMOTORのCIDErスコアが大幅に改善し、フルモデルでCIDErが0.699に達する。
- ChestX-ray14およびMIMIC-CXRでの診断分類では、MOTORは知識なしバリアントを上回り、AUROCおよびF1指標で最先端ベースラインと競合するかそれ以上。
- VQA-RADおよび SLAKEでの医療ビジュアル質問応答は、MOTORがオープンエンドおよび全体の正解率を改善し、跨モーダル理解と生成の強化を示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。