QUICK REVIEW

[論文レビュー] SAPA: Similarity-Aware Point Affiliation for Feature Upsampling

Hao Lu, Wenze Liu|arXiv (Cornell University)|Sep 26, 2022

Advanced Image and Video Retrieval Techniques被引用数 25

ひとこと要約

SAPAは類似性を意識した点の所属付けを導入してアップサンプリングカーネルを生成し、境界のシャープさとセマンティック整合性を改善。セグメンテーションとマットの分野で強力な利得を得る。

ABSTRACT

We introduce point affiliation into feature upsampling, a notion that describes the affiliation of each upsampled point to a semantic cluster formed by local decoder feature points with semantic similarity. By rethinking point affiliation, we present a generic formulation for generating upsampling kernels. The kernels encourage not only semantic smoothness but also boundary sharpness in the upsampled feature maps. Such properties are particularly useful for some dense prediction tasks such as semantic segmentation. The key idea of our formulation is to generate similarity-aware kernels by comparing the similarity between each encoder feature point and the spatially associated local region of decoder features. In this way, the encoder feature point can function as a cue to inform the semantic cluster of upsampled feature points. To embody the formulation, we further instantiate a lightweight upsampling operator, termed Similarity-Aware Point Affiliation (SAPA), and investigate its variants. SAPA invites consistent performance improvements on a number of dense prediction tasks, including semantic segmentation, object detection, depth estimation, and image matting. Code is available at: https://github.com/poppinace/sapa

研究の動機と目的

点の所属付けの概念を特徴アップサンプリングに導入して、アップサンプリングされた点を意味クラスタへより適切に割り当てる。
ローカルな相互類似性を利用する、エンコーダーとデコーダー特徴間の局所的相互類似性を活用した汎用的な、類似性ベースのカーネル生成フレームワークを提案する。
SAPAを軽量なアップサンプリング演算子として具体化し、複数の密な予測タスクにおけるバリアントを研究する。

提案手法

局所ウィンドウ内のエンコーダ-デコーダ特徴対を条件としたアップサンプリングカーネルを生成する局所的相互類似性定式化を定義する。
類似度スコアの正規化を用いて、均一領域での意味的滑らかさとエッジでの境界シャープネスを生むカーネルウェイトを得る。
内積、(低ランク) バイリニア、ゲーテッドバイリニアを含む異なる類似性関数を用いてSAPAのバリアントを instantiated; ゲーティング機構を含みエンコーダノイズをフィルタする。
安定した比較を保証するため、類似性の前にエンコーダとデコーダ特徴へレイヤー正規化を適用する。
セマンティックセグメンテーション、オブジェクト検出、深度推定、画像マッティングにおいてSAPAをCARAFE、IndexNet、A2U、ベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1類似性を意識した点の所属付けは、既存のダイナミックアップサンプリング演算子と比較して意味構造と境界をより良く保持することでアップサンプリング品質を向上させるか？
RQ2SAPAは異なるバックボーンとデータセットで複数の密な予測タスクで改善を達成できるか？
RQ3類似性の選択、正規化、カーネルサイズ、埋め込み次元がSAPAの性能に与える影響は？
RQ4他のダイナミックアップサンプリング手法と比較してパラメータ数とFLOPsの観点でSAPAはどうか？

主な発見

SAPAはADE20K上で強力なトランスフォーマーベースのベースライン（例: SegFormer、MaskFormer、Mask2Former）に統合した場合、セマンティックセグメンテーションで他のアップサンプリング演算子を一貫して上回る。
SAPAバリアント（I、B、G）はセグメンテーション実験でCARAFEや他のベースラインよりも高いmIoUを達成し、SAPA-Gが最良の利益をもたらすことが多い。
SAPAはMS COCOのFaster R-CNNでいくつかの構成でオブジェクト検出APをわずかに改善するが、詳細対地域整合性のタスク感度の違いによりこのタスクではCARAFEより劣る場合がある。
深度推定と画像マッティングにおいてSAPAは競合アップサンプリング手法を上回り、特にAdobe Composition-1kでマッティング指標（例：SAD、MSE、Grad、Conn）の顕著な利得。
アブレーション研究はゲート付きバイリニア類似性がしばしば最高の性能を生むこと、指数正規化（softmax）がテストした正規化の中で一般に最良であることを示す。
SAPAは軽量で、内積バリアントでは追加パラメータなしで動作でき、CARAFEや他の手法と比較して計算量FLOPsとパラメータ数が競争力がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。