[論文レビュー] Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping
WS-SAMを導入し、SAM生成の疑似ラベルをマルチアグメンテーション、エントロピーベースの重み付け、画像レベル選択と組み合わせた弱教師付き concealed object segmentation の枠組み、およびセグメンテーションの一貫性とマルチオブジェクト処理を改善する Multi-scale Feature Grouping モジュールを提案する。
Weakly-Supervised Concealed Object Segmentation (WSCOS) aims to segment objects well blended with surrounding environments using sparsely-annotated data for model training. It remains a challenging task since (1) it is hard to distinguish concealed objects from the background due to the intrinsic similarity and (2) the sparsely-annotated training data only provide weak supervision for model learning. In this paper, we propose a new WSCOS method to address these two challenges. To tackle the intrinsic similarity challenge, we design a multi-scale feature grouping module that first groups features at different granularities and then aggregates these grouping results. By grouping similar features together, it encourages segmentation coherence, helping obtain complete segmentation results for both single and multiple-object images. For the weak supervision challenge, we utilize the recently-proposed vision foundation model, Segment Anything Model (SAM), and use the provided sparse annotations as prompts to generate segmentation masks, which are used to train the model. To alleviate the impact of low-quality segmentation masks, we further propose a series of strategies, including multi-augmentation result ensemble, entropy-based pixel-level weighting, and entropy-based image-level selection. These strategies help provide more reliable supervision to train the segmentation model. We verify the effectiveness of our method on various WSCOS tasks, and experiments demonstrate that our method achieves state-of-the-art performance on these tasks.
研究の動機と目的
- 希薄なラベルを活用して正確なセグメンターを訓練することで、COSにおけるアノテーションコストを削減する。 COSはCOS
- Multi-scale Feature Grouping (MFG)モジュールにより、前景と背景の内在的な類似性を緩和する。
- 増強アンサンブル、画素レベルの重み付け、画像レベル選択を組み合わせたSAM生成マスクを用いて、弱教師付けの品質を向上させる。
- COD、PIS、TODを含む多様なWSCOSタスクで最先端の性能を示す。
- MFGが完全監視COSおよびマルチオブジェクトシナリオにも利点をもたらすことを示す。
提案手法
- 疎な注釈をプロンプトとしてSAMを用い、COSセグメンターの訓練用に密な疑似マスクを生成する。
- マルチグラニュラリティで特徴をグルーピングし、整合性向上のためRK2にヒントを得たスキームで集約する、Multi-scale Feature Grouping (MFG)を提案する。
- ResNet-50エンコーダとデコーダを適用し、疎な注釈上の部分交差エントロピーとSAMベースの疑似ラベルからの監視を組み合わせたジョイント損失で訓練する(L_ceとL_IoU)。
- 疑似ラベルの改善を実装:多重拡張結果融合(MAF)でSAM出力をアンサンブル、確信度の高い画素を強調する画素レベルのエントロピー重み付け、低品質画像を除外する画像レベルのエントロピー選択を適用する。
- スクリブル/スパースポイントの監視を含むベースラインを提供し、SAMベースのベースライン(SAM、SAM-S、SAM-P)および従来のWSCOS手法と比較する。)
実験結果
リサーチクエスチョン
- RQ1SAM生成マスクは、疎な注釈に導かれる場合、弱教師付き隠れ物体セグメンテーションの信頼できる疑似ラベルを提供できるか。
- RQ2マルチスケール特徴グルーピングモジュールは、弱教師付きの下でセグメンテーションの一貫性とマルチオブジェクト処理を改善するか。
- RQ3データ拡張アンサンブル、エントロピー重み付け、画像レベル選択は疑似ラベルの品質と最終セグメンテーション性能を改善するか。
- RQ4WS-SAMはCOD、PIS、TODタスク全体で有効であり、MFGは完全監視COSおよびマルチオブジェクト画像にも利益を拡張できるか。
主な発見
| 手法 | M ↓ | Fβ↑ | Eφ↑ | Sα↑ |
|---|---|---|---|---|
| SAM | 0.207 | 0.595 | 0.647 | 0.635 |
| SAM-S | 0.076 | 0.729 | 0.820 | 0.650 |
| WSSA | 0.067 | 0.692 | 0.860 | 0.782 |
| SCWS | 0.053 | 0.758 | 0.881 | 0.792 |
| TEL | 0.073 | 0.708 | 0.827 | 0.785 |
| SCOD | 0.046 | 0.791 | 0.897 | 0.818 |
| SCOD+ | 0.046 | 0.797 | 0.900 | 0.820 |
| Ours | 0.046 | 0.777 | 0.897 | 0.824 |
- WS-SAMとMFGは、COD、PIS、TODデータセットにおける弱教師付き隠れ物体セグメンテーションタスクで最先端の結果を達成する。
- SAMベースの疑似ラベルは、マルチアグメンテーション融合、画素レベルエントロピー重み付け、画像レベル選択で精緻化され、RAW SAM出力やSAM案内なしのベースラインを上回る。
- Multi-scale Feature Grouping (MFG) モジュールは、特にマルチオブジェクト画像でセグメンテーション指標を改善し、完全監視COS設定でも利得を提供する。
- スコアリングの COD10K におけるscribble 監視では、提案する WS-SAM フレームワークと MFG が競争力のある結果を示し、いくつかのベースラインおよび従来のWSCOS手法を上回る。
- アブレーションは、各成分(MAF, PLW, ILS)とMFG設計が、指標(M, Fβ, Eφ, Sα)全体で測定可能な改善に寄与することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。