QUICK REVIEW

[論文レビュー] Hierarchical Open-vocabulary Universal Image Segmentation

Xudong Wang, Shufan Li|arXiv (Cornell University)|Jul 3, 2023

Multimodal Machine Learning Applications被引用数 9

ひとこと要約

HIPIEは階層的でオープンボキャブラリなユニバーサルセグメンテーションフレームワークを導入し、ground/foregroundデコーダを別々に、テキスト–画像融合をstuffとthings用にデカップリングし、40以上のデータセットで semantic、instance、panoptic、part、そして referring セグメンテーションタスクで最先端の結果を達成します。

ABSTRACT

Open-vocabulary image segmentation aims to partition an image into semantic regions according to arbitrary text descriptions. However, complex visual scenes can be naturally decomposed into simpler parts and abstracted at multiple levels of granularity, introducing inherent segmentation ambiguity. Unlike existing methods that typically sidestep this ambiguity and treat it as an external factor, our approach actively incorporates a hierarchical representation encompassing different semantic-levels into the learning process. We propose a decoupled text-image fusion mechanism and representation learning modules for both "things" and "stuff". Additionally, we systematically examine the differences that exist in the textual and visual features between these types of categories. Our resulting model, named HIPIE, tackles HIerarchical, oPen-vocabulary, and unIvErsal segmentation tasks within a unified framework. Benchmarked on over 40 datasets, e.g., ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW and SeginW, HIPIE achieves the state-of-the-art results at various levels of image comprehension, including semantic-level (e.g., semantic segmentation), instance-level (e.g., panoptic/referring segmentation and object detection), as well as part-level (e.g., part/subpart segmentation) tasks. Our code is released at https://github.com/berkeley-hipie/HIPIE.

研究の動機と目的

マルチレベルのシーン粒度と固有のセグメンテーション曖昧性を尊重するオープンボキャブラリ画像セグメンテーションの動機づけ。
単一モデルで semantic、instance、panoptic、part、および referring segmentation を扱う統一フレームワークを提案。
stuff（背景）とthings（前景）のための表現学習とテキスト–画像融合をデカップリングして、識別的特徴学習を向上させる。
インスタンスレベルとパートレベルのプロンプトを結合して階層的セグメンテーションを有効にし、オープンボキャブラリの階層をサポート。
40+ データセットを対象に広範なベンチマークを実施し、粒度レベルを横断した最先端の性能を確立。

提案手法

3部構成のアーキテクチャを用いる: テキスト–画像特徴抽出、thingsとstuffのデュアルデコーダ、オープンボキャブラリラベリングのためのテキストプロンプト誘導投影。
視覚特徴とテキスト特徴 (F_v, F_t) を (F_v', F_t') に融合するために、Bidirectional cross-attention (Bi-Xattn) を用いた早期融合を採用。
マスク生成を、ThingDecoder（Deformable DETRを基盤としたDINO-denoisingヘッド付き）とStuffDecoder（MaskDINO風）の2つの独立したデコーダでデカップル。
trainingは別々のマッチング戦略で: thingsにはsimOTA、stuffにはHungarianマッチング、さらに損失項（分類、マスク、ボックス、dice、focal、L1、GIoU）。
標準ロジットと CLIPベースの識別ロジットを学習融合を介して結合し、オープンボキャブラリ分類を実行 (p_final ∝ p1^λ p2^(1−λ))。
異なる粒度（instance vs. part）からのラベルを連結して階層的セグメンテーションをサポートし、トレーニング中に両方のラベルタイプで監督。推論は別々のプロンプトを使用してインスタンスマスクとパートマスクを生成。

実験結果

リサーチクエスチョン

RQ1単一モデル内で open-vocabulary セグメンテーションを semantic、instance、panoptic、part の各タスクにわたってどのように統合できるか？
RQ2stuffとthingsのための表現学習とテキスト–画像融合をデカップリングすることは、複数の粒度レベルにおけるセグメンテーション品質を改善しますか？
RQ3事前に定義された階層を必要とせず、階層的プロンプトがopen-vocabularyのpartおよびsubpartセグメンテーションを可能にしますか？
RQ4オープンボキャブラリのユニバーサルセグメンテーションにおいて、どの融合・デコーダーアーキテクチャが最高の性能を発揮しますか？
RQ5従来のSOTA手法と比較して、HIPIEは多様なデータセットとタスクでどのように性能を発揮しますか？

主な発見

HIPIEは semantic、instance、panoptic、part、referring segmentation ベンチマークで最先端の結果を達成します。
独立したデコーダと融合戦略を備えたstuff対thingsのデカップルパイプラインは、複数タスクで統一デコーダを上回ります。
Bi-Xattnベースの融合と残差統合は画像とテキスト特徴の整合性を改善します。
階層的プロンプトは、訓練時に見た階層ラベルを必要とせず、Part-およびSubpartレベルのセグメンテーションを可能にします。
CLIPロジットを用いたオープンボキャブラリ統合はゼロショットおよびオープンセット性能を向上させます。
HIPIEはADE20K、COCO、Pascal-VOC Part、RefCOCO/RefCOCOg、ODinW、SeginWを含む40+データセットで高い性能を示します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。