[論文レビュー] Exploring scalable medical image encoders beyond text supervision
本論文は、DINOv2とマスク画像モデリングで訓練された画像のみの自己教師付きバイオメディカル画像エンコーダー(raddino)が、分類、セグメンテーション、ビジョン–言語タスクにおいてテキスト監督モデルと同等かそれを上回り、データ量とともにスケールし、臨床情報との相関がより高くなることを示している。
Language-supervised pre-training has proven to be a valuable method for extracting semantically meaningful features from images, serving as a foundational element in multimodal systems within the computer vision and medical imaging domains. However, the computed features are limited by the information contained in the text, which is particularly problematic in medical imaging, where the findings described by radiologists focus on specific observations. This challenge is compounded by the scarcity of paired imaging-text data due to concerns over leakage of personal health information. In this work, we fundamentally challenge the prevailing reliance on language supervision for learning general-purpose biomedical imaging encoders. We introduce RAD-DINO, a biomedical image encoder pre-trained solely on unimodal biomedical imaging data that obtains similar or greater performance than state-of-the-art biomedical language-supervised models on a diverse range of benchmarks. Specifically, the quality of learned representations is evaluated on standard imaging tasks (classification and semantic segmentation), and a vision-language alignment task (text report generation from images). To further demonstrate the drawback of language supervision, we show that features from RAD-DINO correlate with other medical records (e.g., sex or age) better than language-supervised models, which are generally not mentioned in radiology reports. Finally, we conduct a series of ablations determining the factors in RAD-DINO's performance; notably, we observe that RAD-DINO's downstream performance scales well with the quantity and diversity of training data, demonstrating that image-only supervision is a scalable approach for training a foundational biomedical image encoder. Model weights of RAD-DINO trained on publicly available datasets are available at https://huggingface.co/microsoft/rad-dino.
研究の動機と目的
- 画像-テキストデータが限られておりPHI(個人健康情報)に関する懸念があるため、バイオメディカル画像エンコーダーの言語監督への依存を減らす動機づけ。
- グローバルおよびローカルな特徴学習のため、DINOv2とマスク画像モデリング(MIM)で訓練された画像のみのエンコーダー raddino を提案する。
- 単一モーダルおよびマルチモーダル機能を検証するため、画像分類、セマンティックセグメンテーション、およびテキストレポート生成における raddino を評価する。
- 画像のみの表現が、言語監督モデルよりも患者の人口統計情報やEHR類似情報とより強く相関することを示す。
提案手法
- パッチレベルの予測のためのマスク画像モデリング(MIM)とマルチクロップ視点を用いた画像レベルのコントラスト学習を組み合わせたハイブリッド目的でDINOv2を用いてraddinoを事前学習する。
- DINOv2 ViT-Bを出発点として、一般ドメインの重みからのドメイン転移実験を伴う、大規模で多様な放射線画像データセット(Multi-CXR)上で事前学習を継続する。
- 外部CXRデータセット上で線形プロービングを用いて、画像-テキストおよびマルチモーダルベースライン(例:CLIP系、BiomedCLIP、BioViL-T、MRM)と比較する。
- 画像分類(VinDr-CXR、CANDID-PTX、RSNA Pneumonia)、セマンティックセグメンテーション(CANDID-PTX、MIMIC-CXR由来データセット)、およびビジョン–言語タスク(MIMIC-CXRでのテキストレポート生成)で評価する。
- 入力解像度、ウェイト初期化、トレーニングデータの規模/多様性が下流性能に及ぼす影響をアブレーションで調査する。
実験結果
リサーチクエスチョン
- RQ1標準的な画像タスク全般で、画像のみの自己監督学習がテキスト監督型のバイオメディカルエンコーダーと同等またはそれを上回ることができるか?
- RQ2raddinoは、グローバルおよびローカル(パッチレベル)タスクの両方で、トレーニングデータ量・多様性・高解像度入力に対して、スケールが有利に働くか?
- RQ3画像のみのエンコーダーは、言語監督と比較して、患者の人口統計情報やレポート以外の臨床情報とより一致した表現を生み出すか?
- RQ4MIMとドメイン転移事前学習がセグメンテーションおよびビジョン–言語生成性能に与える影響は何か?
- RQ5画像-テキストデータに依存せず、統一的な基盤的バイオメディカル画像エンコーダーのための純粋に画像ベースの事前学習アプローチは実現可能か?
主な発見
- raddinoは、画像分類とセグメンテーションの多様なバイオメディカルベンチマークで、最先端の言語監督モデルと同等またはそれを上回る。
- VinDr-CXRで、raddinoは最高のAgg AUPRC(66.63)を達成し、CLIPなどのベースラインを全ての所見で上回る。
- CANDID-PTXおよびRSNA Pneumoniaでは、raddinoは強力な結果を出し、PTX関連タスクの気胸および胸部ドレーンに特に優れる。
- ビジョン–言語生成では、raddinoベースのエンコーダがROUGE-L、BLEU-4、RG ER、Macro-F1-14のスコアで優れ、生成所見の事実性と臨床的正確性が高いことを示す。
- アブレーションは、より大規模で多様なトレーニングデータと高解像度入力で性能がスケールすることを示し、一般ドメインモデルからのドメイン転移は有効だが、継続的なドメイン内事前学習がさらなる利得をもたらす。
- raddinoのエンコードは、言語監督モデルよりも広範な臨床情報(例:人口統計情報)と相関が高く、多モーダル臨床タスクへの適用範囲が広いことを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。