[論文レビュー] Can SAM Count Anything? An Empirical Study on SAM Counting
この論文は Segment Anything Model (SAM) を few-shot object counting のために評価し、ファインチューニングなしでは SAM が専門の few-shot counting 手法に劣り、特に小さく混雑した物体に対しては遅れを取ることを示す。
Meta AI recently released the Segment Anything model (SAM), which has garnered attention due to its impressive performance in class-agnostic segmenting. In this study, we explore the use of SAM for the challenging task of few-shot object counting, which involves counting objects of an unseen category by providing a few bounding boxes of examples. We compare SAM's performance with other few-shot counting methods and find that it is currently unsatisfactory without further fine-tuning, particularly for small and crowded objects. Code can be found at \url{https://github.com/Vision-Intelligence-and-Robots-Group/count-anything}.
研究の動機と目的
- SAM が数個の参照ボックスを与えられた unseen なオブジェクトカテゴリを数えられる能力を評価する。
- 標準データセット上で SAM を既存の few-shot counting 手法と比較する。
- 小さく密集したオブジェクトを数える際の SAM の失敗モードを特定する。
- SAM の既存機能を活用して、ファインチューニングなしでカウントを推定するパイプラインを提案する。
提案手法
- SAM の ViT-H 画像エンコーダを用いて密な画像特徴を抽出する。
- 参照境界ボックスを用いて SAM のプロンプトから参照オブジェクトマスクを生成する。
- 点グリッドプロンプトを用いて全候補オブジェクトのマスクを生成し、それらの特徴を平均化する。
- 参照オブジェクト特徴と全候補マスク特徴のコサイン類似度を計算する。
- 類似度にしきい値を適用してターゲットオブジェクトをカウントし、追加の検出器や分類器なしで総数を得る。
実験結果
リサーチクエスチョン
- RQ1SAM は unseen なカテゴリに対して個別のオブジェクトを効果的にセグメンテーションできるか。
- RQ2SAM のカウント性能は FSC-147 および COCO val2017 で専門の few-shot counting 手法と比べてどうか。
- RQ3小さく密集したオブジェクトなど、few-shot counting に SAM を用いた際の主な失敗モードは何か。
主な発見
- SAM のカウント性能は、追加のファインチューニングなしでは最先端の few-shot counting 手法に劣る。
- COCO val2017 では、SAM は上位手法と比較して平均 MAE が約 2 単位のギャップを示す。
- FSC-147 では、SAM の MAE は近年の手法に比べて大幅に悪く、MAE のギャップが 10 を超える。
- SAM は小さく密集したオブジェクトで苦戦し、複数のインスタンスが単一のマスクとして予測される。
- SAM のカウント欠陥は、(i) 同じカテゴリのオブジェクトがしばしば単一のマスクを受けること、(ii) マスクに意味的なクラス注釈が欠けていることに起因する。
- 制約があるにもかかわらず、SAM は可視化画像で示されるようにいくらかのまばらなシーンで正確にカウントできる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。