Skip to main content
QUICK REVIEW

[論文レビュー] 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation

Shizhan Gong, Yuan Zhong|arXiv (Cornell University)|Jun 23, 2023
Advanced Neural Network Applications被引用数 32
ひとこと要約

この論文は、体積医用腫瘍分割のためのSAMの2Dから3Dへの総合的でパラメータ効率の良い適応を提示し、最小限の調整可能パラメータとボリュームあたり1つのプロンプトで最先端の結果を達成します。

ABSTRACT

Despite that the segment anything model (SAM) achieved impressive results on general-purpose semantic segmentation with strong generalization ability on daily images, its demonstrated performance on medical image segmentation is less precise and not stable, especially when dealing with tumor segmentation tasks that involve objects of small sizes, irregular shapes, and low contrast. Notably, the original SAM architecture is designed for 2D natural images, therefore would not be able to extract the 3D spatial information from volumetric medical data effectively. In this paper, we propose a novel adaptation method for transferring SAM from 2D to 3D for promptable medical image segmentation. Through a holistically designed scheme for architecture modification, we transfer the SAM to support volumetric inputs while retaining the majority of its pre-trained parameters for reuse. The fine-tuning process is conducted in a parameter-efficient manner, wherein most of the pre-trained parameters remain frozen, and only a few lightweight spatial adapters are introduced and tuned. Regardless of the domain gap between natural and medical data and the disparity in the spatial arrangement between 2D and 3D, the transformer trained on natural images can effectively capture the spatial patterns present in volumetric medical images with only lightweight adaptations. We conduct experiments on four open-source tumor segmentation datasets, and with a single click prompt, our model can outperform domain state-of-the-art medical image segmentation models on 3 out of 4 tasks, specifically by 8.25%, 29.87%, and 10.11% for kidney tumor, pancreas tumor, colon cancer segmentation, and achieve similar performance for liver tumor segmentation. We also compare our adaptation method with existing popular adapters, and observed significant performance improvement on most datasets.

研究の動機と目的

  • SAMの3D医用腫瘍分割におけるドメインと次元のギャップによるサブ最適で不安定な性能を解消する。
  • 可能な限り事前学習済み重みを再利用しつつ、体積入力に対してSAMを総合的に適応させる。
  • 2D事前学習を3D医療データへ橋渡しするためのパラメータ効率的なファインチューニングと軽量アダプターを開発する。
  • 複数の腫瘍データセットにわたって、プロンプトへの頑健性を改善し高い分割精度を維持する。

提案手法

  • 体積入力を受け付けるように画像エンコーダを最小限のパラメータ変更で改良し、3Dパッチ埋め込み、3D位置エンコーディング、メモリ効率的な戦略を用いた3Dアテンションブロックを導入する。
  • 微調整用の軽量スペーシャルアダプターを導入し、ほとんどのSAM重みを凍結し、アダプターと正規化層のみを訓練する。
  • プロンプトエンコーディングを、画像特徴マップから埋め込みを取得するビジュアルサンプラーに置換し、トークン爆発とプロンプトからのノイズを緩和するためにクロスアテンションを用いた小規模なグローバルクエリを使用する。
  • マスクデコーダを軽量な3D CNNへ更新し、多層集約を備えて高解像度の3Dマスクを生成する。
  • ボリュームあたり単一または少数のポイントプロンプトで訓練し、ノイズの多いプロンプトへの頑健性を向上させる背景前景サンプリングを含む。
Figure 1: Overview of our proposed method for 3DSAM-adapter. The original ViT is modified to support volumetric inputs. The prompt encoder is redesigned to support 3D point prompt, and the mask decoder is updated to 3D CNN with multi-layer aggregation to generate 3D segmentation.
Figure 1: Overview of our proposed method for 3DSAM-adapter. The original ViT is modified to support volumetric inputs. The prompt encoder is redesigned to support 3D point prompt, and the mask decoder is updated to 3D CNN with multi-layer aggregation to generate 3D segmentation.

実験結果

リサーチクエスチョン

  • RQ1SAMの総合的な2Dから3D適応は、事前学習済み知識を保持しつつ医療ボリュームの3D空間パターンを効果的にエンコードできるか。
  • RQ2視覚サンプラーに基づくプロンプトエンコーディングは、限られたプロンプト下で3D医療分節において従来の位置エンコーディングより優れているか。
  • RQ33Dマスクデコーダの多層集約は、小さくコントラストの低い腫瘍の分割精度にどのような影響を与えるか。
  • RQ4ボリューム分割における調整可能パラメータ数と分割性能のトレードオフは、完全なファインチューニングおよび他のアダプターと比較してどうなるか。

主な発見

方法腎臓腫瘍 Dice腎臓腫瘍 NSD膵臓腫瘍 Dice膵臓腫瘍 NSD肝臓腫瘍 Dice肝臓腫瘍 NSD結腸癌 Dice結腸癌 NSDチューニングされたパラメータ数
nnU-Net (Nat. Methods 2021)73.0777.4741.6562.5460.1075.4143.9152.5230.76M
TransBTS (MICCAI 2021)40.7937.7431.9041.6234.6949.4717.0521.6332.33M
nnFormer (arXiv 2021)45.1442.2836.5353.9745.5460.6724.2832.19149.49M
Swin-UNETR (CVPR 2022)65.5472.0440.5760.0550.2664.3235.2142.9462.19M
UNETR++ (arXiv 2022)56.4960.0437.2553.5937.1351.9925.3630.6855.70M
3D UX-Net (ICLR 2023)57.5958.5534.8352.5645.5460.6728.5032.7353.01M
SAM-B (1 pt/slice) [4]36.3029.8624.0126.746.717.6328.8333.63
Ours (1 pt/volume)73.7883.8654.0976.2754.7869.5548.3563.6525.46M
SAM-B (3 pts/volume) [4]74.9184.3554.9277.5756.3070.0249.4365.0225.46M
SAM-B (10 pts/slice) [4]75.9584.9257.4779.6256.6169.5249.9965.6725.46M
  • 1プロンプトあたりの我々の手法でのDiceスコアは腎臓73.78、NSD83.86;膵臓54.09、76.27;肝臓54.78、69.55;結腸48.35、63.65。
  • ボリュームあたり3プロンプトを用いた場合Dice74.91、NSD84.35(腎75.??、膵臓54.92、肝77.57、結腸56.30、表に従う)、より多くのプロンプトで性能が向上。
  • 最先端のベースライン(nnU-Net等)と比べ、提案手法は多くのデータセットで優位となることが多く、膵臓と結腸癌タスクで大幅な改善を示す。
  • 既存のアダプターや完全なファインチューニングベースラインに対して、元のモデルの調整可能パラメータを16.96%のみで超える高いパラメータ効率を示す。
  • ビジュアルサンプラーによるプロンプトエンコーディングは、位置エンコーディングに対して有意に優れており(KiTS21のアブレーションでDice改善約40%)。
  • マスクデコーダの多層集約は、非集約型と比較してDiceを約15.75%改善。
Figure 2: Spatial adapter.
Figure 2: Spatial adapter.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。