Skip to main content
QUICK REVIEW

[論文レビュー] Side Adapter Network for Open-Vocabulary Semantic Segmentation

Mengde Xu, Zheng Zhang|arXiv (Cornell University)|Feb 23, 2023
Multimodal Machine Learning Applications被引用数 14
ひとこと要約

SANは凍結されたCLIPモデルに軽量なサイドネットワークを接続し、マスク提案とCLIP対応のアテンションバイアスを共同生成する。これにより、エンドツーエンドのオープンボキャブラリ意味セグメンテーションを、高い効率と精度向上とともに実現する。

ABSTRACT

This paper presents a new framework for open-vocabulary semantic segmentation with the pre-trained vision-language model, named Side Adapter Network (SAN). Our approach models the semantic segmentation task as a region recognition problem. A side network is attached to a frozen CLIP model with two branches: one for predicting mask proposals, and the other for predicting attention bias which is applied in the CLIP model to recognize the class of masks. This decoupled design has the benefit CLIP in recognizing the class of mask proposals. Since the attached side network can reuse CLIP features, it can be very light. In addition, the entire network can be trained end-to-end, allowing the side network to be adapted to the frozen CLIP model, which makes the predicted mask proposals CLIP-aware. Our approach is fast, accurate, and only adds a few additional trainable parameters. We evaluate our approach on multiple semantic segmentation benchmarks. Our method significantly outperforms other counterparts, with up to 18 times fewer trainable parameters and 19 times faster inference speed. We hope our approach will serve as a solid baseline and help ease future research in open-vocabulary semantic segmentation. The code will be available at https://github.com/MendelXu/SAN.

研究の動機と目的

  • 視覚と言語の事前学習(CLIP)を用いたオープンボキャブラリ意味セグメンテーションの動機付け。
  • 凍結済みのCLIPベースでありつつエンドツーエンド学習可能な軽量なサイドネットワークを導入。
  • アテンションバイアスを介してマスク提案生成とCLIPベースの認識を分離。
  • 追加パラメータと計算を最小限に抑えたCLIP対応マスク予測を達成。
  • 複数のベンチマークで効率性の優位性とともに最先端の性能を実証。

提案手法

  • 凍結されたCLIPモデルに2つの分岐を持つサイドアダプタネットワーク(SAN)を接続し、マスク提案の生成とマスク認識用アテンションバイアスの予測を行う。
  • 非対称な入力解像度を使用:CLIPベースの認識には低解像度のCLIP特徴を、マスク提案には高解像度のSAN入力を用いる。
  • CLIPからの視覚トークンをSANに融合し、分離されたヘッドを適用してマスク提案と認識バイアスを生成。
  • S = M P^T によってセグメンテーションを計算。ここでMはマスク提案、Pはアテンションバイアスからのクラススコア。
  • マスク予測(ダイスとBCE)とマスク分類(クロスエントロピー)の損失でエンドツーエンドに学習。
  • 任意でCLIP位置エンベディングを微調整し、プロンプトエンジニアリングを用いてゼロショット認識を改善。
Figure 2 : Overview of our SAN . The red dotted lines indicate the gradient flow during training. In our framework, the frozen CLIP model still serves as a classifier, and the side adapter network generates mask proposals and attention bias to guide the deeper layers of the CLIP model to predict pro
Figure 2 : Overview of our SAN . The red dotted lines indicate the gradient flow during training. In our framework, the frozen CLIP model still serves as a classifier, and the side adapter network generates mask proposals and attention bias to guide the deeper layers of the CLIP model to predict pro

実験結果

リサーチクエスチョン

  • RQ1大規模なCLIPモデルをセグメンテーションデータで微調整することなく、オープンボキャブラリ意味セグメンテーションをどのように実現できるか?
  • RQ2凍結されたCLIP特徴を活用して、エンドツーエンド方式でCLIP対応のマスク提案と認識バイアスを生成する軽量なサイドネットワークは可能か?
  • RQ3特徴融合の深さ、入力解像度、分離ヘッドの影響が性能と効率に与える影響はどうか?
  • RQ4サン(SAN)は、2段階または完全に微調整されたCLIPベースの手法と比較して、ベンチマーク全体で精度と効率の点でどうか?
  • RQ5プロンプトエンジニアリングがオープンボキャブラリセグメンテーションの性能に及ぼす影響は?

主な発見

手法VLモデルトレーニングデータセットアンサンブルADE-847PC-459ADE-150PC-59VOC
SimSegCLIP ViT-B/16COCOno.7.08.720.547.788.4
MaskCLIPCLIP ViT-L/14COCOno.8.210.023.745.9-
OvSeg*CLIP ViT-B/16COCOyes.7.111.024.853.392.6
SAN(ours)CLIP ViT-B/16COCOno.10.1 ±0.2312.6 ±0.4427.5 ±0.3453.8 ±0.5794.0 ±0.21
SAN ensembleCLIP ViT-B/16COCOyes.10.7 ±0.2213.7 ±0.3428.9 ±0.4255.4 ±0.1194.6 ±0.11
SAN(ours)CLIP ViT-L/14COCOno.12.4 ±0.2715.7 ±0.2632.1 ±0.4257.7 ±0.3494.6 ±0.42
SAN ensembleCLIP ViT-L/14COCOyes.13.7 ±0.1217.1 ±0.1833.3 ±0.2960.2 ±0.3195.5 ±0.16
  • ViT-L/14 CLIPを用いたSANは、ADE-847(12.4)、PC-459(15.7)、ADE-150(32.1)、PC-59(57.7)、VOC(94.6)で最先端のmIoUを達成し、従来手法を上回る。
  • ViT-B/16と組み合わせたSANは、ADE-847で10.1 mIoU、PC-459で12.6、ADE-150で27.5、PC-59で53.8、VOCで94.0を達成(CLIPの完全微調整なし)。
  • COCO調整済みモデルとSANをアンサンブルすると、ADE-847で13.7、PC-459で17.1、ADE-150で33.3、PC-59で60.2、VOCで95.5へと改善。
  • SANは学習可能パラメータ8.4Mと64.3 GFLOPsしか必要とせず、競合手法より大幅に少ない。
  • アブレーション研究は、より深いCLIP特徴の融合と分離ヘッドが性能向上に寄与することを示し、エンドツーエンドのCLIP対応マスク予測が高い結果に不可欠である。
  • プロンプトエンジニアリングは、ADE-150およびADE-847で約1.2 mIoUの測定可能な向上をもたらす。
Figure 3 : The architecture of the side adapter network. The side adapter network projects the input image to visual tokens and appends query tokens to them at the beginning. Further, it fuses the immediate features of the CLIP model in the middle of transformer layers. The query and visual features
Figure 3 : The architecture of the side adapter network. The side adapter network projects the input image to visual tokens and appends query tokens to them at the beginning. Further, it fuses the immediate features of the CLIP model in the middle of transformer layers. The query and visual features

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。