Skip to main content
QUICK REVIEW

[論文レビュー] ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency

Pengzhen Ren, Changlin Li|arXiv (Cornell University)|Jan 31, 2023
Multimodal Machine Learning Applications被引用数 16
ひとこと要約

ViewCoはテキスト-ビューの整合性とクロスビュー分割の整合性を導入し、画像とテキストデータからテキスト監督型のセグメンテーションマスクを学習する。VOC2012、PASCAL Context、COCOでゼロショットの最先端のmIoUを達成。複数のクロップをテキストと整合させるためにマルチビュー自己監督とクロスモーダル対比損失を用いる。

ABSTRACT

Recently, great success has been made in learning visual representations from text supervision, facilitating the emergence of text-supervised semantic segmentation. However, existing works focus on pixel grouping and cross-modal semantic alignment, while ignoring the correspondence among multiple augmented views of the same image. To overcome such limitation, we propose multi-\textbf{View} \textbf{Co}nsistent learning (ViewCo) for text-supervised semantic segmentation. Specifically, we first propose text-to-views consistency modeling to learn correspondence for multiple views of the same input image. Additionally, we propose cross-view segmentation consistency modeling to address the ambiguity issue of text supervision by contrasting the segment features of Siamese visual encoders. The text-to-views consistency benefits the dense assignment of the visual features by encouraging different crops to align with the same text, while the cross-view segmentation consistency modeling provides additional self-supervision, overcoming the limitation of ambiguous text supervision for segmentation masks. Trained with large-scale image-text data, our model can directly segment objects of arbitrary categories in a zero-shot manner. Extensive experiments show that ViewCo outperforms state-of-the-art methods on average by up to 2.9\%, 1.6\%, and 2.4\% mIoU on PASCAL VOC2012, PASCAL Context, and COCO, respectively.

研究の動機と目的

  • テキスト監督型セマンティックセグメンテーションのための単一画像-テキストペアを超えた、より良いクロ modality semantic alignmentを目指す。
  • テキスト記述の曖昧さを緩和するため、自己監督としてクロスビュー分割整合性を導入する。
  • マルチビューのクロップを活用して、テキスト-ビューの整合を学習し、高密度な高レベルの意味を支えるようにする。
  • 大規模な画像-テキストデータセットで事前学習を行い、標準ベンチマークへ転移させるゼロショット分割能力を示す。

提案手法

  • 厳密な画像-テキスト対応を緩和し、同じテキストと複数の画像クロップを整合させるテキスト-ビュー整合性モデリングを提案する。
  • Siameseビジュアルエンコーダからのセグメント特徴を対照させることで自己監督を提供するクロスビュー分割整合性を導入する。
  • Teacher-Student EMAを用いたCross-View Segmentation Featuresを得るGroupViTベースのビジュアルバックボーンを使用し、NCEベースの損失を適用する。
  • マルチビューおよびマルチプロンプトの画像-テキスト対比損失を適用して、クロスメディアの整合性を強化し、テキストの曖昧さの影響を低減する。
  • クロスビュー分割損失をテキスト-ビュー損失とマルチプロンプト損失と組み合わせて最終的な学習目的関数とする。
  • CC12MおよびCC12M+YFCCで事前学習を行い、セグメンテーショントークン埋め込みをラベルプロンプトと一致させることでゼロショット分割を実施する。
Figure 2: The consistent comparison of semantic segmentation results in multiple views of a “horse”. (a) GroupViT: the semantic segmentations of different views are inconsistent. (b) ViewCo: the semantic segmentations of different views are much more consistent. Here, x , u , and v represent the seg
Figure 2: The consistent comparison of semantic segmentation results in multiple views of a “horse”. (a) GroupViT: the semantic segmentations of different views are inconsistent. (b) ViewCo: the semantic segmentations of different views are much more consistent. Here, x , u , and v represent the seg

実験結果

リサーチクエスチョン

  • RQ1画像-テキストマッチングを緩和して1対1の対応を超えるテキスト-ビューの一対多パラダイムは、分割の高レベルクロスモーダル意味整合を改善するか。
  • RQ2クロスビュー分割整合性は、分割マスクのテキスト監督の曖昧さを克服する頑健な自己監督を提供するか。
  • RQ3マルチビューのテキスト-ビューとクロスビュー分割損失は、標準データセット全体でゼロショット分割をどのように改善するか。
  • RQ4CC12M対CC12M+YFCCはViewCoを用いたゼロショット意味セグメンテーションでどの程度の利得をもたらすか。

主な発見

Pre-trainingModelDatasetSupervisionZero-ShotPASCAL VOC (mIoU)PASCAL Context (mIoU)COCO (mIoU)
CC12MViewCoCC12Mtext & self45.720.820.6
CC12M+YFCCViewCoCC12M+YFCCtext & self52.423.023.5
  • ViewCoはVOC2012、PASCAL Context、COCOの平均ゼロショットmIoUを、最先端のベースラインより最大で2.9ポイント向上させる。
  • テキスト-ビュー整合性(1対多)は、単一ビューのテキスト-画像対比より高い意味的整合をもたらす。
  • クロスビュー分割整合性は追加の自己監督を提供し、ビュー間での分割整合性を向上させる。
  • CC12Mの事前学習では、ViewCoはVOCで52.4 mIoU、COCOで23.0 mIoUを達成し、GroupViTを著しく上回る。
  • ゼロショットImagenet Acc@1はViewCo使用時に改善され、クロスモーダルな意味理解が強化されていることを示す。
  • ViewCoは一部のベンチマークで完全監視付きのベースラインに近づき、強力なゼロショット分割能力を示す。
Figure 3: Comparison of single-view text-to-image contrastive learning (left) and multi-view text-to-views contrastive learning (right).
Figure 3: Comparison of single-view text-to-image contrastive learning (left) and multi-view text-to-views contrastive learning (right).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。