QUICK REVIEW

[論文レビュー] CamoFormer: Masked Separable Attention for Camouflaged Object Detection

Bowen Yin, Xuying Zhang|arXiv (Cornell University)|Dec 10, 2022

Visual Attention and Saliency Detection被引用数 27

ひとこと要約

CamoFormerはエンコーダ–デコーダ Transformer フレームワーク内で Masked Separable Attention (MSA) を導入し、前景と背景の手がかりを分離してモデル化することで、主要な COD ベンチマークで最先端の隠れ物体検出（COD）を達成します。

ABSTRACT

How to identify and segment camouflaged objects from the background is challenging. Inspired by the multi-head self-attention in Transformers, we present a simple masked separable attention (MSA) for camouflaged object detection. We first separate the multi-head self-attention into three parts, which are responsible for distinguishing the camouflaged objects from the background using different mask strategies. Furthermore, we propose to capture high-resolution semantic representations progressively based on a simple top-down decoder with the proposed MSA to attain precise segmentation results. These structures plus a backbone encoder form a new model, dubbed CamoFormer. Extensive experiments show that CamoFormer surpasses all existing state-of-the-art methods on three widely-used camouflaged object detection benchmarks. There are on average around 5% relative improvements over previous methods in terms of S-measure and weighted F-measure.

研究の動機と目的

周囲と高度に類似している隠れ物体のセグメンテーション課題を動機づけ、解決する。
前景・背景・グローバル関係を扱うために注意ヘッドを分割する新規のMasked Separable Attention（MSA）を提案する。
複数の特徴階層でMSAを用いてセグメンテーションマップを洗練させるため、段階的なトップダウンデコーダを活用する。
3つのCODベンチマークで最先端の性能を示し、MSAコンポーネントの寄与を分析する。

提案手法

Transformerベースのバックボーン（PVTv2）を用いたエンコーダ–デコーダアーキテクチャを採用し、多層スケール特徴を抽出する。
Masked Separable Attention（MSA）を導入し、注意ヘッドをForeground-TA（F-TA）、Background-TA（B-TA）、および通常のTAにグループ化し、それぞれ予測された前景マスクを用いてマスク付きクエリ/キーを計算する。
中間予測から前景マスクを生成し、それをF-TAおよびB-TAの計算を駆動させ、通常のTA出力（Z）と連結して3×3畳み込みを通して128チャネルへ変換する。
デコーダ内で上から下へ特徴を段階的に融合し、対応するエンコーダ特徴と和をとる前に要素ごとの積を計算する（D_i = up(MSA(D_{i+1})) * E_i + E_i）。
複数段階の予測をBCEとIoU損失で監督し、ステージごとの損失を合算してエンドツーエンドでモデルを訓練する。

実験結果

リサーチクエスチョン

RQ1CODにおける従来の自己注意と比較して、前景・背景を分離した注意は隠れ物体のセグメンテーションを改善できるか？
RQ2MSAを複数のデコーダレベルで段階的に洗練させると、CAMOマスクと境界の品質が向上するか？
RQ3個別のMSAコンポーネント（F-TA、B-TA、TA）はCODの性能にどのように寄与するか？
RQ4デコーダの幅(C_d)のトレードオフは何で、精度と計算量にどう影響するか？

主な発見

CamoFormerはNC4K、COD10K、CAMO CODベンチマークで新たな最先端の結果を達成しました。
COD10K-testで、0.786の加重F測度と0.023のMAEを達成（次点のFDNetの0.731および0.030を上回る）。
MSAはベースラインおよび独立したTAよりも一貫した改善をもたらし、3つの分岐（F-TA、B-TA、TA）のすべてが性能向上に寄与する。
MSAを用いた段階的な洗練により、後半のデコーダレベルで性能差が大きくなり、MSAとトップダウン融合の強い補完性を示す。
アブレーションによりデコーダチャネル数（C_d）を増やすと、128チャネルまで性能が向上し、精度と計算量のバランスが取れることが示された。
定性的な可視化は、前法よりも鋭い境界とより完全な隠れ物体のセグメンテーションを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。