QUICK REVIEW

[論文レビュー] MAIRA-1: A specialised large multimodal model for radiology report generation

Stephanie L. Hyland, Shruthi Bannur|arXiv (Cornell University)|Nov 22, 2023

Topic Modeling被引用数 14

ひとこと要約

MAIRA-1は、放射線学に特化したマルチモーダルモデルで、胸部X線レポートのFindingsセクションを生成する際に、放射線画像エンコーダを Vicuna-7B と整列させ、GPT-3.5データ拡張を用い、極端に大規模なモデルやデータセットを必要とせず、RadCliQおよび語彙/放射線特有の指標で競争力のある結果を達成する。

ABSTRACT

We present a radiology-specific multimodal model for the task for generating radiological reports from chest X-rays (CXRs). Our work builds on the idea that large language model(s) can be equipped with multimodal capabilities through alignment with pre-trained vision encoders. On natural images, this has been shown to allow multimodal models to gain image understanding and description capabilities. Our proposed model (MAIRA-1) leverages a CXR-specific image encoder in conjunction with a fine-tuned large language model based on Vicuna-7B, and text-based data augmentation, to produce reports with state-of-the-art quality. In particular, MAIRA-1 significantly improves on the radiologist-aligned RadCliQ metric and across all lexical metrics considered. Manual review of model outputs demonstrates promising fluency and accuracy of generated reports while uncovering failure modes not captured by existing evaluation practices. More information and resources can be found on the project website: https://aka.ms/maira.

研究の動機と目的

放射線レポート生成を、Findingsの正確な記述を必要とする細粒度のマルチモーダルタスクとして動機づける。
ドメイン特化の画像エンコーダと学習可能なアダプタが、比較的小さなモデル設定で画像とテキストをレポート生成に整列させることを実証する。
GPT-3.5ベースのデータ拡張がFindings生成の臨床指標を改善する。
MAIRA-1を放射線特有の指標と語彙ベースのベースラインと比較し、膨大なリソースを要することなく競争的SOTA性能を確立する。

提案手法

胸部X線画像エンコーダとしてRAD-DINOをViT-B (87Mパラメータ)／518x518入力で使用し、画像埋め込みの上に学習可能なMLPアダプタ（2–4層）を配置する。
LLMとしてVicuna-7Bを採用し、アダプタと共同で標準的な自己回帰言語モデリング損失（クロスエントロピー）で3エポックのファインチューニングを行う。
GPT-3.5を用いたFindingsとIndicationセクションのパラフレーズデータ拡張により、約131k件の追加レポートを生成する。
MIMIC-CXR上で frontal AP/PAビューのみを使用して訓練と評価を行い、公式コードベースを用いてFindingsとIndicationセクションを抽出し、広範な指標群で評価する。
推論時には32-bit精度で出力あたり最大150トークンまでデコードする。
ドメイン特化のエンコーダ、アダプタサイズ、GPT拡張データの影響を分離するために、LLaVA-1.0/1.5およびLLaVA-Medを含むベースラインと比較し、アブレーションを実施する。

実験結果

リサーチクエスチョン

RQ1放射線専門のマルチモーダルモデルは、Indicationとペアとなる単一の正面胸部X線画像から、Findingsセクションを正確かつ流暢に生成できるか。
RQ2ドメイン特化の画像エンコーダとより深いアダプタ、データ拡張を用いることで、一般的なマルチモーダルベースラインより放射線レポート生成において測定可能な改善が得られるか。
RQ3画像エンコーダの選択、アダプタのサイズ、GPTベースのデータ拡張が、臨床および語彙ベースのレポート品質指標に対してどの程度寄与するか。
RQ4MAIRA-1の出力は、MIMIC-CXRテストセットの標準的な指標（RadGraph、RadCliQ、CheXpert F1）および語彙指標でどの程度評価されるか。

主な発見

Category	Metric	MAIRA-1	SOTA	[ref.]	Param. count	Test set size
語彙	ROUGE-L	28.9 [28.4, 29.4]	27.49	(Tu et al., 2023)	86.6M image encoder + 53M MLP adapter + 7B LLM	2,461 samples
語彙	BLEU-1	39.2 [38.7, 39.8]	32.31	(Tu et al., 2023)	86.6M image encoder + 53M MLP adapter + 7B LLM	2,461 samples
語彙	BLEU-4	14.2 [13.7, 14.7]	13.30	(Miura et al., 2021)	86.6M image encoder + 53M MLP adapter + 7B LLM	2,461 samples
語彙	METEOR	33.3 [32.8, 33.8]	16.8	(Tanida et al., 2023)	86.6M image encoder + 53M MLP adapter + 7B LLM	2,461 samples
臨床	RadGraph-F1	24.3 [23.7, 24.8]	26.71	(Tu et al., 2023)	86.6M image encoder + 53M MLP adapter + 7B LLM	2,461 samples
臨床	RG ER	29.6 [29.0, 30.2]	34.7	(Delbrouck et al., 2022)	86.6M image encoder + 53M MLP adapter + 7B LLM	2,347 reports
CheXpert vector	CheXbert vector	44.0 [43.1, 44.9]	45.2	(Miura et al., 2021) *	86.6M image encoder + 53M MLP adapter + 7B LLM	1,597 images
RadCliQ (↓)	RadCliQ (down)	3.10 [3.07, 3.14]	–	(Miura et al., 2021) †	86.6M image encoder + 53M MLP adapter + 7B LLM	1,597 images
Macro-F1-14	Macro-F1-14	38.6 [37.1, 40.1]	39.83	(Tu et al., 2023)	86.6M image encoder + 53M MLP adapter + 7B LLM	4,834 images
Micro-F1-14	Micro-F1-14	55.7 [54.7, 56.8]	53.56	(Tu et al., 2023)	86.6M image encoder + 53M MLP adapter + 7B LLM	4,834 images
Macro-F1-5	Macro-F1-5	47.7 [45.6, 49.5]	51.60	(Tu et al., 2023)	86.6M image encoder + 53M MLP adapter + 7B LLM	4,834 images
Micro-F1-5	Micro-F1-5	56.0 [54.5, 57.5]	57.88	(Tu et al., 2023)	86.6M image encoder + 53M MLP adapter + 7B LLM	4,834 images
Macro-F1-14+	Macro-F1-14+	42.3 [40.9, 43.6]	–	–	86.6M image encoder + 53M MLP adapter + 7B LLM	4,834 images
Micro-F1-14+	Micro-F1-14+	55.3 [54.3, 56.2]	–	–	86.6M image encoder + 53M MLP adapter + 7B LLM	4,834 images
Macro-F1-5+	Macro-F1-5+	51.7 [49.9, 53.1]	–	–	86.6M image encoder + 53M MLP adapter + 7B LLM	4,834 images
Micro-F1-5+	Micro-F1-5+	58.8 [57.4, 60.0]	54.7	(Tanida et al., 2023)	86.6M image encoder + 53M MLP adapter + 7B LLM	32,711 images

MAIRA-1は、極端に大規模なモデルやデータセットを必要とせずに、放射線レポート生成タスクで競争力のある最新手法に匹敵する成果を達成する。
放射線特化の画像エンコーダ（RAD-DINO）を使用し、より高解像度の画像とより深いアダプタ（MLP-4）を採用することで、CLIPベースのベースラインより性能が向上する。
GPT-3.5ベースのパラフレーズデータ拡張により、臨床指標（RadGraph、CheXbertベクトル、RadCliQ）が向上する一方で、語彙指標はやや低下する。
MAIRA-1は放射線科医と一致するRadCliQスコアを優位に取り、14個の観察項目全体でマクロ/ミクロのCheXpert F1指標が高く、ファインディングクラスによって若干ばらつく。
先行研究と比較して、MAIRA-1はROUGE-LやMETEORなど語彙指標を改善し、臨床指標の複数で頑健な性能を示すが、テストセットの分布や評価プロトコルが直接比較に影響を与える。
アブレーション分析は、ドメイン特化の画像処理、より大きなアダプタ、GPT拡張データの追加利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。