[論文レビュー] MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
MedTrinity-25Mを紹介する。これは10 modalitiesと65+ diseasesに跨る、25M以上の画像-ROI-descriptionトリプレットと多階層アノテーションを含む大規模なマルチモーダル医療データセットであり、エキスパートグラウンディング、RAG、MLLMsを用いた自動パイプラインにより、組み合わせられたテキストなしで作成された。
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal dataset for medicine, covering over 25 million images across 10 modalities with multigranular annotations for more than 65 diseases. These multigranular annotations encompass both global information, such as modality and organ detection, and local information like ROI analysis, lesion texture, and region-wise correlations. Unlike the existing multimodal datasets, which are limited by the availability of image-text pairs, we have developed the first automated pipeline that scales up multimodal data by generating multigranular visual and textual annotations in the form of image-ROI-description triplets without the need for any paired text descriptions. Specifically, data from over 30 different sources have been collected, preprocessed, and grounded using domain-specific expert models to identify ROIs related to abnormal regions. We then build a comprehensive knowledge base and prompt multimodal large language models to perform retrieval-augmented generation with the identified ROIs as guidance, resulting in multigranular textual descriptions. Compared to existing datasets, MedTrinity-25M provides the most enriched annotations, supporting a comprehensive range of multimodal tasks such as captioning and report generation, as well as vision-centric tasks like classification and segmentation. We propose LLaVA-Tri by pretraining LLaVA on MedTrinity-25M, achieving state-of-the-art performance on VQA-RAD, SLAKE, and PathVQA, surpassing representative SOTA multimodal large language models. Furthermore, MedTrinity-25M can also be utilized to support large-scale pre-training of multimodal medical AI models, contributing to the development of future foundation models in the medical domain. We will make our dataset available.
研究の動機と目的
- ローカルROIをグローバルな疾患コンテキストに結びつける多階層の医療ビジュアル記述の必要性を喚起する。
- ペア付きでない医療画像からリッチなimage-ROI-descriptionアノテーションを生成する、スケーラブルで自動化されたパイプラインを提供する。
- キャプショニング、レポート生成、分類、セグメンテーションなどの幅広いマルチモーダルタスクと医療AIモデルの大規模事前学習を実現する。
提案手法
- 90+のオンラインリソースから入手した25M+サンプルにわたる10 modalitiesと65+ diseasesから、image-ROI-descriptionトリプレットを作成する。
- 必要に応じてマスクを境界ボックスに変換するため、ROIsを特定する専門家グラウンディングモデルを使用する。
- PubMed、StatPearls、教科書から医療知識ベースを構築し、検索強化生成のためにFaissでインデックス化する。
- 粗いキャプション、ROIs、取得した知識に導かれて多階層のテキスト記述を生成するため、医療LLMスタック(GPT-4V subset → LLaVA-Med Captioner、LLAMA3とマルチスケール機能を強化)をプロンプトする。
- MedTrinity-25MでLLaVA-Med++をファインチューニングして、全25Mのimage-ROI-descriptionトリプレットを生成する。
実験結果
リサーチクエスチョン
- RQ1ペア付きでない医療画像を自動グラウンディング、検索強化生成、およびMLLMsを用いて高品質で多階層のimage-ROI-descriptionトリプレットへ変換できるか?
- RQ2多階層のアノテーションは、VQAやレポート生成などの下流の医療マルチモーダルタスクの性能を、既存データセットと比較して向上させるか?
- RQ3MedTrinity-25Mでの事前学習は、データセットなしで学習したモデルと比較して医療VQAベンチマークで優れた結果をもたらすか?
主な発見
- MedTrinity-25Mは90+ sourcesからの25M以上のimage-ROI-descriptionトリプレットを含み、10 modalitiesと65+ diseasesにまたがる。
- データセットはモダリティ、臓器、ROIの位置、領域間の関係、ROIレベルの境界ボックスまたはマスクなど、多階層のテキスト記述を提供する。
- GPT-4V alignment assessments on SLAKE and MIMIC-CXR indicate high alignment with human annotations (8.2/10 and 8.9/10 overall in the five-criteria rubric).
- LLaVA-Med++ pretrained on MedTrinity-25M achieves state-of-the-art performance on VQA-RAD and PathVQA and ranks third on SLAKE among evaluated baselines when pretrained on the dataset.
- Pretraining on MedTrinity-25M yielded improvements of about 10.75% on VQA-RAD, 6.1% on SLAKE, and 13.25% on PathVQA for downstream VQA benchmarks compared to not using the dataset.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。