QUICK REVIEW

[論文レビュー] MedCLIP: Contrastive Learning from Unpaired Medical Images and Text

Zifeng Wang, Zhenbang Wu|arXiv (Cornell University)|Oct 18, 2022

Multimodal Machine Learning Applications被引用数 28

ひとこと要約

MedCLIP は医用ビジョン言語対比学習のために画像ストリームとテキストストリームを分離し、データ効率を改善する知識駆動の意味的マッチング損失を使用して、ゼロショット・監視付き・検索性能を高める。

ABSTRACT

Existing vision-text contrastive learning like CLIP aims to match the paired image and caption embeddings while pushing others apart, which improves representation transferability and supports zero-shot prediction. However, medical image-text datasets are orders of magnitude below the general images and captions from the internet. Moreover, previous methods encounter many false negatives, i.e., images and reports from separate patients probably carry the same semantics but are wrongly treated as negatives. In this paper, we decouple images and texts for multimodal contrastive learning thus scaling the usable training data in a combinatorial magnitude with low cost. We also propose to replace the InfoNCE loss with semantic matching loss based on medical knowledge to eliminate false negatives in contrastive learning. We prove that MedCLIP is a simple yet effective framework: it outperforms state-of-the-art methods on zero-shot prediction, supervised classification, and image-text retrieval. Surprisingly, we observe that with only 20K pre-training data, MedCLIP wins over the state-of-the-art method (using around 200K data). Our code is available at https://github.com/RyanWangZf/MedCLIP.

研究の動機と目的

医用ビジョン言語事前学習におけるデータ不足を、画像とテキストを分離することで解決する。
対比学習における偽陰性を減らすために医療知識を活用する。
監督をスケールさせるために、ペアなしの医用画像とレポートでの学習を可能にする。
ゼロショット、監督付き分類、および画像-テキスト検索を複数データセットで評価する。

提案手法

別々のビジョンエンコーダとテキストエンコーダを使用し、P次元の埋め込みを生成する投影ヘッドを備える。
画像-テキストペアを分離して、画像のみデータセットとテキストのみデータセットからの組合せ監督を可能にする。
レポートから医療エンティティを抽出し、画像ラベルをUMLS概念にマッピングして意味的類似性ベクトルを構築する。
l_imgとl_txtからソフト意味ターゲット s を計算し、ソフトターゲットとモデルロジットのクロスエントロピーで意味的マッチング損失を訓練に用いる。
正規化された埋め込み間のコサイン類似度をロジットとして用い、クロスエントロピー損失のsoftmax に温度 tau を適用する。
双方向の意味的マッチング損失を平均して最終的な訓練目的を形成する。

実験結果

リサーチクエスチョン

RQ1MedCLIP は画像とテキストを分離することでデータ効率の高い、効果的な医用ビジョン言語事前学習を実現できるか？
RQ2医療知識駆動の意味的マッチング損失は対比学習における偽陰性を減らすか？
RQ3ゼロショット、監督付き分類、画像-テキスト検索で MedCLIP は医療データセット全体でどのように性能を示すか？
RQ4学習済み埋め込みは下流の臨床タスクへ転用可能で、ドメイン横断設定に頑健か？

主な発見

MedCLIP はベースラインより四つのデータセットでゼロショットの精度が高く、はるかに少ない前学習データで達成（例：GLoRIA より約10分の1のデータで上回る）。
MedCLIP は評価設定全体で画像-テキスト検索タスクの検索精度を向上させる。
MedCLIP の特徴量でファインチューニングすると、低リソース状況でも監督付きベースラインに対して競合または上回る強力な下流分類性能を発揮する。
MedCLIP が学習する埋め込みは、CLIP 系ベースラインよりも医療意味クラスターがはっきり形成される（定性的な可視化で示される）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。