[論文レビュー] Universal Weakly Supervised Segmentation by Pixel-to-Segment Contrastive Learning
本論文は弱教師ありセグメンテーションを半教師付きピクセル単位の距離学習として定式化し、部分アノテーションから普遍的な特徴を学ぶ4つの pixel-to-segment 対比関係を導入する。Pascal VOCとDensePoseで強力な成果を達成する。
Weakly supervised segmentation requires assigning a label to every pixel\nbased on training instances with partial annotations such as image-level tags,\nobject bounding boxes, labeled points and scribbles. This task is challenging,\nas coarse annotations (tags, boxes) lack precise pixel localization whereas\nsparse annotations (points, scribbles) lack broad region coverage. Existing\nmethods tackle these two types of weak supervision differently: Class\nactivation maps are used to localize coarse labels and iteratively refine the\nsegmentation model, whereas conditional random fields are used to propagate\nsparse labels to the entire image.\n We formulate weakly supervised segmentation as a semi-supervised metric\nlearning problem, where pixels of the same (different) semantics need to be\nmapped to the same (distinctive) features. We propose 4 types of contrastive\nrelationships between pixels and segments in the feature space, capturing\nlow-level image similarity, semantic annotation, co-occurrence, and feature\naffinity They act as priors; the pixel-wise feature can be learned from\ntraining images with any partial annotations in a data-driven fashion. In\nparticular, unlabeled pixels in training images participate not only in\ndata-driven grouping within each image, but also in discriminative feature\nlearning within and across images. We deliver a universal weakly supervised\nsegmenter with significant gains on Pascal VOC and DensePose. Our code is\npublicly available at https://github.com/twke18/SPML.\n
研究の動機と目的
- 部分的にラベル付けされた学習画像(タグ、ボックス、ポイント、落書き)から意味的セグメンターを学習することを動機づける。
- ラベルなしデータを効果的に活用する統一的な対比学習フレームワークを介して、ピクセルレベルの意味を伝播させ、洗練させる。
- 識別的で非パラメトリックなSegSortベースのアプローチを弱教師ありへ拡張する。
- アノテーションタイプを横断してPascal VOCとDensePoseにおいてSOTAを一貫して上回ることを示す。
提案手法
- 弱教師付きセグメンテーションを半教師付きピクセル毎の距離学習として定式化する。
- 4つの pixel-to-segment 対比関係を提案: 低レベルの画像類似性、意味的アノテーション、意味的共起、特徴アフィニティ。
- これらの関係を用いてピクセルごとに正/負のセグメント集合を定義し、ラベル付きピクセルを超えた監視を拡張する。
- 4つの項をλI、λC、λO、λAの重みで総合化する統一的なピクセル-wise対比損失 L(i) を最適化する。
- 訓練中にラベルなしのピクセルとセグメントを活用して、識別的でクロス画像な特徴構造を学習する。
実験結果
リサーチクエスチョン
- RQ1単一の pixel-to-segment 対比フレームワークは、意味セグメンテーションにおけるすべての形式の弱教師付(タグ、ボックス、ポイント、落書き)に対応できるか?
- RQ2複数の関係ベースの事前情報を介して、ラベルなしのピクセルとセグメントは学習に有意義に寄与するか?
- RQ3提案手法 SPML は、標準データセットにおける異なる弱教師設定下で SOTA と比較してどのように性能を示すか?
- RQ4学習された特徴空間は、画像内および画像間で正確なセグメンテーションのために効果的に識別的か?
主な発見
- SPMLは Pascal VOC において画像タグで最先端または著しいゲインを達成(saliencyなしで +4.4%、saliencyなしで +5.1%)し、Bounding boxes で +3.2%です。
- Pascal VOC の scribble 監視では、検証で 74.2% mIoU、テストで 76.1% を達成し、それぞれ full supervision の 97.5%、98.4% に到達。
- DensePose の point supervision では、SPML は 77.1% WvF と 44.2 mIoU に達し、従来のベースラインを 12.9% mIoU 上回る(77.1% WvF に到達)。
- SPML はアノテーションの希少性に対して頑健性を示し、監督がより希薄になるにつれて full-supervision 性能の高い割合を維持する(例として scribbles から points へ)。
- 定性的な結果は領域境界との一致が向上し、完全に監視された手法に対する視覚的類似性が改善され、正則化関係を追加するほど改善が大きくなる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。