[論文レビュー] Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data
RadFM は MedMD と RadMD を導入して視覚的条件付けされた放射線診断基盤モデルを訓練し、RadBenchで評価され、複数の放射線タスクで公開ベースラインを上回る。
In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM. We consider the construction of foundational models from three perspectives, namely, dataset construction, model design, and thorough evaluation. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, which consists of 16M 2D and 3D medical scans with high-quality text descriptions or reports across various data formats, modalities, and tasks, covering over 5000 distinct diseases. To the best of our knowledge, this is the first large-scale, high-quality, medical visual-language dataset, with both 2D and 3D scans; (ii), we propose an architecture that enables visually conditioned generative pre-training, i.e., allowing for integration of text input with 2D or 3D medical scans, and generate responses for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently fine-tuned on the domain-specific dataset, which is a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs, termed as RadMD; (iii), we propose a new evaluation benchmark, RadBench, that comprises five tasks, including modality recognition, disease diagnosis, visual question answering, report generation and rationale diagnosis, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. We conduct both automatic and human evaluation on RadBench, in both cases, RadFM outperforms existing multi-modal foundation models, that are publicaly accessible, including Openflamingo, MedFlamingo, MedVInT and GPT-4V. Additionally, we also adapt RadFM for different public benchmarks, surpassing existing SOTAs on diverse datasets. All codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.
研究の動機と目的
- 放射線領域のファウンデーションモデル向けの大規模多模態医療データの不足を解消する。
- 大規模で高品質な放射線診断に特化した多模態データセット (MedMD) を構築し、クリーンなファインチューニングサブセット (RadMD) を用意する。
- 2Dおよび3Dの医療画像とテキストを扱える統一的で視覚条件付きの生成モデル (RadFM) を開発する。
- モダリティ認識、疾患診断、VQA、レポート生成、推論診断を評価する包括的な評価ベンチマーク (RadBench) を確立する。
- 既存の公開モーダル基盤モデルに対する RadFM の性能向上を示し、他のベンチマークへの適応性を示す。
提案手法
- 17 システムおよび 5000+ 疾患にわたる16Mの2D/3D放射線スキャンと高品質なテキストキャプションまたはレポートを含む MedMD を構築する。
- RadMD を生成するために MedMD をフィルタリングし、分野特化のファインチューニング用に3Mの放射線焦点の視覚-言語データセットとする。
- 3D ViT ビジュアルエンコーダ、Perceiver アグリゲーションモジュール、およびテキスト生成のための LLM を用いた視覚条件付き自己回帰モデル RadFM を提案する。
- 2D 画像を4スライスにパディングして複数画像入力を可能にし、3Dパッチには学習可能な3Dポジション埋め込みを使用する。
- Perceiver ベースのフュージョンを用いて視覚埋め込みを挿入されたテキストプロンプトと統合し、負の対数尤度目的で訓練する。
- 医療用語や関連プロンプトを強調するためにトークンごとの重み付けを適用し、挿入型データと視覚指示データセットで異なる。
- モダリティ認識、疾患診断、VQA、レポート生成、推論診断というタスク固有の促しを活用して出力を整える。
![Figure 1 : The general comparison between RadFM and different SOTA methods, i.e. , OpenFlamingo [ 1 ] , MedVInT [ 55 ] , Med-Flamingo [ 31 ] and GPT-4V [ 37 ] . On the left we plot the radar figure of the five models, on the average of different automatic metrics, the coordinate axes are logarithmiz](https://ar5iv.labs.arxiv.org/html/2308.02463/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ11つの汎用モデルで、2D/3D入力と自然言語出力を用いてモダリティ認識、疾患診断、VQA、レポート生成、推論診断など多様な放射線タスクを効果的に処理できるか?
- RQ2大規模な MedMD データセットでの学習と放射線焦点のファインチューニング(RadMD)を組み合わせることで、既存の公開モーダル放射線モデルより優れた性能を発揮できるか?
- RQ3RadFM は包括的な放射線特化ベンチマーク(RadBench)および RadBench 以外の公開ベンチマークでどのように性能を示すか?
- RQ42D/3D放射線データと多様なタスクを統合するのに寄与するアーキテクチャの選択肢(3D ViT エンコーダ、Perceiver フュージョン、LLM デコーダ)は何か?
- RQ5データ品質とプロンプト戦略が放射線タスク全体のモデル性能に与える影響はどれほどか?
主な発見
- RadFM は RadBench において自動評価と人間評価の両方で、公開されているマルチモーダル基盤モデル(OpenFlamingo、MedFlamingo、MedVInT、GPT-4V)を上回る。
- RadFM は RadBench 以外の公開ベンチマークへ適用した場合にも強い一般化を示す。
- RadFM は 2D および 3D の放射線画像を単一のアーキテクチャで統合した初の基盤モデルである。
- このモデルは複数画像を入力として受け付け、さまざまな放射線タスクに対して自然言語出力を生成する。
- 訓練パイプラインは広範な MedMD の事前学習データと、放射線に焦点を当てた RadMD のファインチューニングセットを組み合わせ、強力なドメイン整合を達成する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。