QUICK REVIEW

[論文レビュー] AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt Encoder

Tal Shaharabany, Aviad Dahan|arXiv (Cornell University)|Jun 10, 2023

Advanced Neural Network Applications被引用数 39

ひとこと要約

AutoSAM は SAM のプロンプトエンコーダを学習済みの画像条件付きエンコーダに置換し、SAM のファインチューニングなしで完全自動の医用画像セグメンテーションを可能にし、複数の医療データセットで最先端の結果を達成します。

ABSTRACT

The recently introduced Segment Anything Model (SAM) combines a clever architecture and large quantities of training data to obtain remarkable image segmentation capabilities. However, it fails to reproduce such results for Out-Of-Distribution (OOD) domains such as medical images. Moreover, while SAM is conditioned on either a mask or a set of points, it may be desirable to have a fully automatic solution. In this work, we replace SAM's conditioning with an encoder that operates on the same input image. By adding this encoder and without further fine-tuning SAM, we obtain state-of-the-art results on multiple medical images and video benchmarks. This new encoder is trained via gradients provided by a frozen SAM. For inspecting the knowledge within it, and providing a lightweight segmentation solution, we also learn to decode it into a mask by a shallow deconvolution network.

研究の動機と目的

SAM（自然画像で訓練）と医用画像とのドメインギャップに対処する。
画像そのものを入力として訓練済みエンコーダに渡す自動 prompting メカニズムを開発する。
コアコンポーネントの再訓練を避けるために frozen SAM バックボーンを維持しつつ、医療領域でのセグメンテーションを改善する。
多様な医用セグメンテーションベンチマークで最先端の性能を示す。

提案手法

SAM の prompt encoder を、入力画像 I を取り SAM のための prompts Z_I を出力する学習済みプロンプト生成器 g に置換する。
セグメンテーション損失を用いて凍結された SAM を介して勾配を伝播させ、g をエンドツーエンドで訓練する: L_seg = L_BCE + L_dice。
g の backbone は Harmonic Dense Net (HarDNet) で、六つの HarD ブロックと、64x64 解像度を生成する軽量デコーダを備える。
g(I) をマスクへ写像する軽量代替デコーダ h を用い、検査用マスクを作成し、類似のセグメンテーション損失で訓練する。
標準的なセグメンテーション指標（IoU, Dice）で性能を計算し、動画の場合は Dice、Sen、F-measure、F^w、S_alpha、E_phi の6指標を含む。
MoNuSeg、GlaS、Kvasir-SEG、ClinicDB、ColonDB、ETIS、SUN-SEG データセット全体にわたる広範な実験を提供する。

実験結果

リサーチクエスチョン

RQ1SAM の prompt encoder を画像条件付き prompt generator で過負荷することにより、完全自動のセグメンテーション解決策を構築できるか。
RQ2prompt encoder を置換することで（SAM のファインチューニングなし）、医用画像およびビデオのセグメンテーション精度にどのような影響があるか。
RQ3多様なデータセットにおける AutoSAM と最先端の医用セグメンテーション手法との比較的な向上はどの程度か。

主な発見

AutoSAM は複数の医用セグメンテーションベンチマークで最先端の結果を達成し、MoNuSeg と GlaS で Medical Transformer、3P-SEG、MedAdaptorSAM などの手法を上回る。
MoNuSeg データセットでは、AutoSAM は Dice と Mean-IoU 指標で全ベースラインを上回る（論文に具体的な値が報告されている）。
GlaS 腺セグメンテーションタスクでは、IoU と Dice の点で従来手法を顕著な差で上回る。
AutoSAM はポリープセグメンテーションデータセット（Kvasir-SEG、ClinicDB、ColonDB、ETIS）および SUN-SEG のビデオポリプセグメンテーションでも高い性能を発揮し、指標の多くでしばしば最先端を達成する。
軽量デコーダー h(g(I)) は合理的なセグメンテーションマスクを提供し、g がエンコードする情報内容を示すが、完全な AutoSAM 出力ほど強力ではない。
SAM の prompt encoder を学習済みの画像条件付きエンコーダに置換することで、SAM のコアコンポーネントをファインチューニングすることなく大幅な改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。