QUICK REVIEW

[論文レビュー] Context-aware Cross-level Fusion Network for Camouflaged Object Detection

Yujia Sun, Geng Chen|arXiv (Cornell University)|May 26, 2021

Visual Attention and Saliency Detection参考文献 36被引用数 24

ひとこと要約

本稿では、注意誘発型クロスレベル融合モジュール（ACFM）を用いてマルチレベル特徴を統合し、二本のブランチからなるグローバルコンテキストモジュール（DGCM）でグローバルコンテキストを強化することで、コンテキストに配慮したクロスレベル統合ネットワーク（C2F-Net）を提案する。このモデルは、CAMO、COD10K、CHAMELEONの3つのベンチマークデータセットで最先端の性能を達成し、Fβwスコアで最大18.35%、Eϕで最大8.71%の向上を達成した。

ABSTRACT

Camouflaged object detection (COD) is a challenging task due to the low boundary contrast between the object and its surroundings. In addition, the appearance of camouflaged objects varies significantly, e.g., object size and shape, aggravating the difficulties of accurate COD. In this paper, we propose a novel Context-aware Cross-level Fusion Network (C2F-Net) to address the challenging COD task. Specifically, we propose an Attention-induced Cross-level Fusion Module (ACFM) to integrate the multi-level features with informative attention coefficients. The fused features are then fed to the proposed Dual-branch Global Context Module (DGCM), which yields multi-scale feature representations for exploiting rich global context information. In C2F-Net, the two modules are conducted on high-level features using a cascaded manner. Extensive experiments on three widely used benchmark datasets demonstrate that our C2F-Net is an effective COD model and outperforms state-of-the-art models remarkably. Our code is publicly available at: https://github.com/thograce/C2FNet.

研究の動機と目的

カモフラージュ物体検出（COD）における低境界コントラストと可変的な外観の課題に対処する。
既存手法がグローバルコンテキストを十分に活用せず、効果的なクロスレベル特徴統合が不十分であるという限界を克服する。
豊富なグローバルコンテキストとマルチスケール特徴統合を同時に最適化する統合フレームワークを設計し、CODの精度を向上させる。
複数の物体、隠蔽、不明瞭な境界などの複雑な状況下でも検出性能を向上させる。

提案手法

マルチスケールチャネルアテンション（MSCA）を用いて、異なる特徴レベル間でのアダプティブな特徴統合を実現する注意誘発型クロスレベル統合モジュール（ACFM）を提案する。
融合された特徴を二本の並列ブランチで処理することで、マルチスケールのグローバルコンテキスト表現を抽出する二本のブランチからなるグローバルコンテキストモジュール（DGCM）を導入する。
ACFMおよびDGCM内にMSCAを採用し、マルチスケールコンテキストに基づいてチャネル単位の特徴を動的に重みづけ、特徴の識別能を向上させる。
最終セグメンテーションの前に、高レベル特徴に対してACFMおよびDGCMを段階的に適用し、段階的な表現の精錬を実現する。
受容 field を拡大し、特徴マップを豊かにするために、ドーナツ型畳み込み（RFBモジュール）を用いたバックボーンネットワーク（例：ResNet）を採用する。
特徴統合に注意制御とマルチスケールコンテキストモデリングを組み合わせることで、低コントラストで不規則な形状のカモフラージュ物体の検出を強化する。

実験結果

リサーチクエスチョン

RQ1どのようにすれば、カモフラージュ物体検出に向けた判別能の高い特徴をより効果的に捉えるためにクロスレベル特徴統合を改善できるか？
RQ2グローバルコンテキスト情報を組み込むことで、困難なCODシナリオにおける検出性能はどの程度向上するか？
RQ3注意機構は、低コントラストで変動が激しい検出タスクにおいて、特徴統合と表現学習を効果的に誘導できるか？
RQ4マルチスケールコンテキストモデリングとクロスレベル統合を統合することで、ベンチマークCODデータセット上の性能にどのような影響を与えるか？

主な発見

C2F-Netは、3つのベンチマークデータセットにおいて、ResNet50ベースのSINet比でSαスコア平均4.54%の向上を達成した。
最先端のSINetと比較して、Eϕスコア平均で8.71%、Fβwスコア平均で18.35%の向上を達成した。
アブレーションスタディの結果、ACFMおよびDGCMの両方が不可欠であることが確認され、完全なモデルはすべての指標でアブレーション変種を上回った。
MSCAを標準畳み込み層に置き換えると、CAMO-TestでFβwスコアが1.9%低下し、マルチスケールアテンションの重要性が明確に示された。
可視化比較では、C2F-NetがSOTAモデルに比べて、特に隠蔽や複数物体シーンにおいてより完全で詳細なカモフラージュ物体を検出していることが確認された。
COD10Kの5つのスーパークラスを用いた検証により、水中、陸上、飛行する動物など多様なカモフラージュ物体カテゴリにわたり、良好な一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。