QUICK REVIEW

[論文レビュー] Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

Yang Liu, Muzhi Zhu|arXiv (Cornell University)|May 22, 2023

Multimodal Machine Learning Applications被引用数 15

ひとこと要約

Matcherはトレーニングなしのフレームワークで、既製の視覚基盤モデルを組み合わせて、1つの文脈内の例から何でもセグメントできる。複数のタスクにわたってトレーニングなしで、ワンショットおよび少数ショットのセグメンテーションを強力に達成する。

ABSTRACT

Powered by large-scale pre-training, vision foundation models exhibit significant potential in open-world image understanding. However, unlike large language models that excel at directly tackling various language tasks, vision foundation models require a task-specific model structure followed by fine-tuning on specific tasks. In this work, we present Matcher, a novel perception paradigm that utilizes off-the-shelf vision foundation models to address various perception tasks. Matcher can segment anything by using an in-context example without training. Additionally, we design three effective components within the Matcher framework to collaborate with these foundation models and unleash their full potential in diverse perception tasks. Matcher demonstrates impressive generalization performance across various segmentation tasks, all without training. For example, it achieves 52.7% mIoU on COCO-20$^i$ with one example, surpassing the state-of-the-art specialist model by 1.6%. In addition, Matcher achieves 33.0% mIoU on the proposed LVIS-92$^i$ for one-shot semantic segmentation, outperforming the state-of-the-art generalist model by 14.4%. Our visualization results further showcase the open-world generality and flexibility of Matcher when applied to images in the wild. Our code can be found at https://github.com/aim-uofa/Matcher.

研究の動機と目的

タスク固有のトレーニングなしで、視覚基盤モデルを多様な知覚タスクに活用する動機付け。
参照画像とマスクを用いて、文脈内推論を介してターゲット画像のセグメンテーションを導く。
堅牢な跨画像マッチングとSAMの多様なプロンプト生成を可能にする設計要素。
ワンショット・少数ショットの意味セマンティックおよびパートセグメンテーションで高い汎化性を達成し、動画オブジェクトセグメンテーションへ拡張。

提案手法

参照画像とターゲット画像から、オフ・ザ・シェルフのエンコーダ（例：DINOv2）を用いてパッチレベルの特徴を抽出し、コサイン類似度により対応行列Sを形成する。
双方向パッチマッチングとマスクフィルタリングを用いて、堅牢な前方・後方の対応を生成し外れ値を抑制する。
対応点から部位・インスタンス・グローバルプロンプトを作成する堅牢なプロンプトサンプラーを導入し、SAMプロンプトを多様化する。
参照マスクとSAM由来の提案との間で最適輸送（Earth Mover’s Distance）を用いたインスタンスレベルのマッチングを実行し、コストC = 1/2(1−S)、純度とカバレッジ指標で提案を評価する。
同一意味のインスタンスについて、マージされたマスクの数を調整して高品質マスクを統合し出力を制御可能にする。
すべてのステップは基盤モデルのトレーニングなしで動作するよう設計されている。

実験結果

リサーチクエスチョン

RQ1ビジョン基盤モデルをどのように組み合わせて、タスク固有のトレーニングなしでセグメンテーションタスクを実行できるか？
RQ2文脈内の例は、異なるデータセット間で正確なマスクを生成するクロス画像の意味的マッチングを導くか？
RQ3クラス非依存のセグメンテーションモデルを一般的な知覚システムへ変換するために不可欠な構成要素は何か？
RQ4ワンショットおよび少数ショットのセグメンテーションは、COCO-20i、FSS-1000、LVIS-92iのようなデータセット間でどこまで汎化できるか？
RQ5トレーニングなしで動画オブジェクトセグメンテーションへ拡張することは可能か？

主な発見

COCO-20 i（ワンショット）	COCO-20 i（少数ショット）	FSS-1000（ワンショット）	FSS-1000（少数ショット）	LVIS-92 i（ワンショット）	LVIS-92 i（少数ショット）
52.7	60.7	87.0	89.6	33.0	40.0

MatcherはCOCO-20iで52.7% mean IoU（ワンショット）、60.7%（少数ショット）。
MatcherはFSS-1000で87.0% mean IoU（ワンショット）、89.6%（少数ショット）。
MatcherはLVIS-92iで33.0% mean IoU（ワンショット）、40.0%（少数ショット）。
最先端の専門モデルや一般モデルと比較して、Matcherは評価されたデータセット全般で優位または競争力のある性能を示す。
MatcherはトレーニングなしのPerSAMとPerSAM-FをCOCO-20i、FSS-1000、LVIS-92iで大きく上回り、SAMだけに依存するよりも基盤モデルの組み合わせの価値を示唆している。
動画オブジェクトセグメンテーションでは、トレーニングなしで競争力のある結果を出し、非動画データでトレーニングされたモデルを上回るものもある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。