QUICK REVIEW

[論文レビュー] EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

Yunyang Xiong, Bala Varadarajan|arXiv (Cornell University)|Dec 1, 2023

Advanced Neural Network Applications被引用数 15

ひとこと要約

EfficientSAMはSAMIを導入します。SAMIは軽量なViTエンコーダを訓練してSAM画像エンコーダからの特徴を再構成するマスク付き画像事前学習アプローチであり、セグメンテーションタスクで競争力を発揮しつつ、計算量とパラメータ数を大幅に削減した効率的なSAMバリアントを生み出します。

ABSTRACT

Segment Anything Model (SAM) has emerged as a powerful tool for numerous vision applications. A key component that drives the impressive performance for zero-shot transfer and high versatility is a super large Transformer model trained on the extensive high-quality SA-1B dataset. While beneficial, the huge computation cost of SAM model has limited its applications to wider real-world applications. To address this limitation, we propose EfficientSAMs, light-weight SAM models that exhibits decent performance with largely reduced complexity. Our idea is based on leveraging masked image pretraining, SAMI, which learns to reconstruct features from SAM image encoder for effective visual representation learning. Further, we take SAMI-pretrained light-weight image encoders and mask decoder to build EfficientSAMs, and finetune the models on SA-1B for segment anything task. We perform evaluations on multiple vision tasks including image classification, object detection, instance segmentation, and semantic object detection, and find that our proposed pretraining method, SAMI, consistently outperforms other masked image pretraining methods. On segment anything task such as zero-shot instance segmentation, our EfficientSAMs with SAMI-pretrained lightweight image encoders perform favorably with a significant gain (e.g., ~4 AP on COCO/LVIS) over other fast SAM models.

研究の動機と目的

SAM（Segment Anything Models）の計算量・メモリ負荷を削減しつつ、セグメンテーション性能を損なわない。
SAM特徴を再構成ターゲットとして用いる軽量エンコーダ向けのSAMIフレームワークを提案する。
SAMI事前学習済みのバックボーンが画像分類・物体検出・セマンティックセグメンテーション・segment-anythingタスク全般で良い一般化を示す。
EfficientSAMs（軽量エンコーダ＋SAMデコーダ）は、ゼロショットおよびプロンプト可能なセグメンテーションにおいて品質と効率の良好なトレードオフを達成する。

提案手法

Mask Autoencoder (MAE)事前学習を適用し、SAM ViT-Hエンコーダからの潜在特徴を監視ターゲットとして再構成する。
クエリがマスク済みトークンから、キー/バリューがエンコーダ出力とマスク済み特徴から来るクロスアテンションデコーダを使用する。
マスク済みトークンのデコーダ出力とエンコーダ出力を結合してMAE出力を形成し、SAM特徴と整合する線形射影ヘッドを適用する。
MSE損失を用いてSAM特徴とMAE出力の再構成誤差を最小化し、75%のマスキング比・400エポックでImageNet-1K（224x224）で事前学習する。
SAMI事前学習済み軽量エンコーダ（例：ViT-Tiny/Small）を、Segment AnythingタスクのSA-1BでSAMのデフォルトデコーダと共にファインチューニングする。
事前学習後はMAEデコーダを破棄し、SAMI事前学習済みエンコーダを画像バックボーンとして下流タスク（分類・検出・セグメンテーション）に用いる。

実験結果

リサーチクエスチョン

RQ1SAMI事前学習は、標準MAEや他の事前学習ベースラインと比較して軽量ViTエンコーダの表現品質を改善するか。
RQ2SAMI事前学習済みバックボーンは、画像分類・物体検出・セマンティックセグメンテーション・segment-anythingタスク全般で一般化するか。
RQ3EfficientSAMs（軽量エンコーダ＋SAMデコーダ）は、SAM・MobileSAM・FastSAMと比較してゼロショットおよび対話的セグメンテーションでどのような性能を示すか。
RQ4再構成ターゲット・損失・マスキング比・ファインチューニング手順が下流パフォーマンスに与える影響は何か。
RQ5実用展開において、EfficientSAMsのモデルサイズ・速度・セグメンテーション品質の間に有利なトレードオフは存在するか。

主な発見

SAMIはViT-Tiny/Small/Baseに対して、MAEおよびいくつかのベースラインよりImageNet-1Kトップ1精度を向上させる（例：SAMI-Bは84.8%対MAE-Bの83.6%）。
COCOの物体検出とインスタンス分割では、SAMIバックボーンがMAE対比より高いAP/bboxおよびAP/maskを達成（例：SAMI-B 52.5/46.5対MAE-B 51.6/45.9）。
ADE20Kのセマンティックセグメンテーションでは、SAMIバックボーンがMAEバックボーンより高いmIoUを示す（例：SAMI-B 51.8対MAE-B 49.3）。
EfficientSAM-TiおよびEfficientSAM-SはCOCO/LVISでゼロショットのインスタンス分割で競争力を持ち、EfficientSAM-Sは1-2-3クリック設定でCOCOで60.1 AP、LVISで62.3 APを達成し、ゼロショットの単一点評価で最大76.9 mIoUに達する。
EfficientSAM-S（9.8Mパラメータ）はゼロショットのインスタンス分割でSAMの性能に近づき、約2 APの低下のみ。EfficientSAM-TiはMobileSAMおよびFastSAMより複数のプロンプトで上回る。
アブレーションにより、MSE再構成損失はコサイン損失より優れており、マスク比が高い（約75%）ほど有益で、SAM特徴をアンカーとして用いるとマスク済みトークンの再構成が助けられることが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。