QUICK REVIEW

[論文レビュー] Segment Anything is A Good Pseudo-label Generator for Weakly Supervised Semantic Segmentation

Peng-Tao Jiang, Yuqi Yang|arXiv (Cornell University)|May 2, 2023

Advanced Neural Network Applications被引用数 18

ひとこと要約

この論文は、弱ラベルから派生した SAM プロンプトを使用して、弱教師ありセマンティックセグメンテーションの高品質な擬似ラベルを生成する方法を調査し、PASCAL VOC 2012 で高い性能を達成する。

ABSTRACT

Weakly supervised semantic segmentation with weak labels is a long-lived ill-posed problem. Mainstream methods mainly focus on improving the quality of pseudo labels. In this report, we attempt to explore the potential of 'prompt to masks' from the powerful class-agnostic large segmentation model, segment-anything. Specifically, different weak labels are used as prompts to the segment-anything model, generating precise class masks. The class masks are utilized to generate pseudo labels to train the segmentation networks. We have conducted extensive experiments on PASCAL VOC 2012 dataset. Experiments demonstrate that segment-anything can serve as a good pseudo-label generator. The code will be made publicly available.

研究の動機と目的

ピクセルレベルの注釈がコストが高いことを踏まえ、弱教師ありセマンティックセグメンテーションを動機づける。
さまざまな弱い注釈をプロンプトとして利用し、擬似ラベル生成器としての segment-anything model (SAM) の潜在能力を調査する。
異なるプロンプト（画像レベルのラベル、ポイント、スクリブル、境界ボックス）が擬似ラベルの品質と最終的なセマンティックセグメンテーションの性能に与える影響を定量的に評価する。
注釈タイプと構成が、注釈の労力とセグメンテーション精度の最良のトレードオフを生み出すかを特定する。

提案手法

弱い注釈を SAM によって正確なオブジェクトマスク（擬似ラベルとして訓練データの一部となる）へ変換する。
画像レベルのラベル、ポイント、スクリブル、境界ボックスを含む複数のプロンプトタイプを探索し、バリエーション（例：CAM からのサンプリング、反復的プロンプト、ネガティブプロンプト）を含める。
2 つの CAM ベースのポイント・プロンプト戦略を評価：信頼できる CAM ピクセル全体をサンプリングする方式と信頼できるピクセルのみをサンプリングする方式の比較と、擬似ラベル品質への影響の分析。
SAM によって生成されたマスクと BLIP-2 分類を活用して、擬似ラベル作成のためのマスクを改良または分類する。
反復的なプロンプト改良とネガティブプロンプトが、異なる注釈タイプの擬似ラベル品質に与える影響を評価する。
生成された擬似ラベルを用いて標準的なセグメンテーションバックボーン（ResNet-101 初期化の DeepLab-v2）を訓練し、PASCAL VOC 2012 を報告する。

実験結果

リサーチクエスチョン

RQ1SAM がさまざまな弱いラベルでプロンプトされたとき、セマンティックセグメンテーションモデルの訓練に適した高品質な擬似ラベルを生成できるか。
RQ2最良の擬似ラベル品質と下流のセグメンテーション性能を生み出すプロンプトタイプは何か（画像レベルのラベル、ポイント、スクリブル、境界ボックス）？
RQ3反復プロンプトやネガティブプロンプトは、弱教師ありの SAM が生成するマスクの品質を改善するか。
RQ4SAM ベースの擬似ラベルは、PASCAL VOC 2012 における従来の弱教師あり手法と比較してどうか。

主な発見

注釈	手法	出版物	検証 (%)	テスト (%)
画像レベルラベル	AdvCAM	CVPR’21	68.1	68.0
画像レベルラベル	EPS	CVPR’22	70.9	70.8
画像レベルラベル + SAM	-	-	71.1	72.2
ポイント	WhatsPoint	ECCV’16	46.1	-
ポイント + SAM	-	-	69.0	68.7
スクリブル	ScribbleSup	CVPR’16	63.1	-
スクリブル + SAM	-	-	75.9	76.6
境界ボックス	WSSL	ICCV’15	60.6	62.2
境界ボックス	BoxSup	ICCV’15	62.0	64.6
SDI	SDI	CVPR’17	69.4	-
Song ら	Song et al.	CVPR’19	70.2	-
BBAM	BBAM	CVPR’21	73.7	73.7
境界ボックス + SAM	-	-	76.3	75.8

スクリブル・プロンプトを用いた SAM は最も高い擬似ラベル品質を達成し、VOC 2012 の訓練セットで 89.7% mIoU、テストセットで 76.6% mIoU を DeepLab-v2 の訓練に利用した場合に達成。
境界ボックス・プロンプトを用いた SAM は強力な擬似ラベルを提供し、訓練セットで 91.5% mIoU、テストで競争力のある性能を達成。
画像レベルラベルと CAM 派生プロンプトの SAM ベース擬似ラベルは、従来の CAM ベース手法よりも大幅な改善を示し、例えば画像レベルラベル + SAM がテスト時 72.2% の mIoU に達し、いくつかの従来手法より高い。
反復的プロンプト改良は画像レベルプロンプトの擬似ラベル品質を常に向上させるわけではないが、スクリブル・プロンプトやネガティブ・ポイント構成には有益となり得る。
ポイント・プロンプトは競合的な結果（検証 69.0%、テスト 68.7%）を生むが、一般にスクリブルおよび境界ボックス・プロンプトの SAM 実行には及ばない。
総じて、SAM は PASCAL VOC 2012 の弱教師ありセマンティックセグメンテーションにおける強力な擬似ラベル生成器として示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。