[論文レビュー] One-shot Localization and Segmentation of Medical Images with Foundation Models
前学習済みの自然画像基盤モデル(ViT系および Stable Diffusion)を用いて、テンプレート画像を指示として Segment Anything モデルをガイドすることで、単 shot による多様な医用画像の局所化とセグメンテーションを可能にし、モダリティ横断で Dice スコアの競争力を達成し、ほとんどのタスクで最近の few-shot 手法を上回る。
Recent advances in Vision Transformers (ViT) and Stable Diffusion (SD) models with their ability to capture rich semantic features of the image have been used for image correspondence tasks on natural images. In this paper, we examine the ability of a variety of pre-trained ViT (DINO, DINOv2, SAM, CLIP) and SD models, trained exclusively on natural images, for solving the correspondence problems on medical images. While many works have made a case for in-domain training, we show that the models trained on natural images can offer good performance on medical images across different modalities (CT,MR,Ultrasound) sourced from various manufacturers, over multiple anatomical regions (brain, thorax, abdomen, extremities), and on wide variety of tasks. Further, we leverage the correspondence with respect to a template image to prompt a Segment Anything (SAM) model to arrive at single shot segmentation, achieving dice range of 62%-90% across tasks, using just one image as reference. We also show that our single-shot method outperforms the recently proposed few-shot segmentation method - UniverSeg (Dice range 47%-80%) on most of the semantic segmentation tasks(six out of seven) across medical imaging modalities.
研究の動機と目的
- ドメイン内トレーニングなしで、自然画像で事前学習したモデルが医用画像の対応タスクを解決できるか評価する。
- テンプレート画像を用いたセグメンテーションを促す single-shot パイプラインを実証する。
- 複数のモダリティ(CT、MR、超音波)および解剖領域での性能を評価する。
- 医用画像における最近の few-shot セグメンテーション手法と単 shot の性能を比較する。
提案手法
- 自然画像で訓練されたさまざまな事前学習済み ViT モデル(DINO、DINOv2、SAM、CLIP)と Stable Diffusion モデルを医用画像対応タスクに適用して評価する。
- テンプレート画像の対応付けを用いて Segment Anything モデルを促し、単shot のセグメンテーションを得る。
- 複数のモダリティと解剖領域にわたる Dice スコアを報告し、一般化性能を評価する。
- 提案手法を UniverSeg(few-shot)とセマンティックセグメンテーションタスクで比較する。
- モダリティ横断およびメーカー横断の頑健性を示す結果を提示する。
実験結果
リサーチクエスチョン
- RQ1自然画像で訓練された基盤モデルは、ドメイン特化の微調整なしで医用画像の対応タスクを実行できるか。
- RQ2テンプレート画像による促しアプローチは、医用画像で正確な one-shot セグメンテーションを生み出せるか。
- RQ3モダリティとタスクを横断した単 shot のセグメンテーション性能は、最近の few-shot 手法とどう比較されるか。
主な発見
- テンプレートプロンプトを用いた自然画像基盤モデルによる単 shot の局所化とセグメンテーションは、タスク間で Dice スコアを 62%–90% の範囲で達成する。
- 一つの参照画像だけで SAM のセグメンテーションを促す。
- ほとんどのモダリティのセマンティックセグメンテーションタスク(全7タスク中6タスク)で、単 shot 手法は few-shot の UniverSeg 手法を上回る(Dice 範囲 47%–80%)。
- 実験は脳、胸部、腹部、四肢を含む CT、MR、超音波を、さまざまなメーカーの画像でカバーする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。