QUICK REVIEW

[論文レビュー] ACNet: Attention Based Network to Exploit Complementary Features for RGBD Semantic Segmentation

Xinxin Hu, Kailun Yang|arXiv (Cornell University)|May 24, 2019

Advanced Neural Network Applications参考文献 17被引用数 25

ひとこと要約

ACNetは、チャネル注意に基づく注意補完モジュール（ACM）を用いて、RGBと深度特徴を選択的に統合するマルチブランチアテンションネットワークを提案する。動的で文脈に適応した特徴統合を可能にし、ResNet-50を用いてNYUDv2で48.3%のmIoUを達成し、先行手法を0.6ポイント上回る最先端の性能を発揮する。

ABSTRACT

Compared to RGB semantic segmentation, RGBD semantic segmentation can achieve better performance by taking depth information into consideration. However, it is still problematic for contemporary segmenters to effectively exploit RGBD information since the feature distributions of RGB and depth (D) images vary significantly in different scenes. In this paper, we propose an Attention Complementary Network (ACNet) that selectively gathers features from RGB and depth branches. The main contributions lie in the Attention Complementary Module (ACM) and the architecture with three parallel branches. More precisely, ACM is a channel attention-based module that extracts weighted features from RGB and depth branches. The architecture preserves the inference of the original RGB and depth branches, and enables the fusion branch at the same time. Based on the above structures, ACNet is capable of exploiting more high-quality features from different channels. We evaluate our model on SUN-RGBD and NYUDv2 datasets, and prove that our model outperforms state-of-the-art methods. In particular, a mIoU score of 48.3\% on NYUDv2 test set is achieved with ResNet50. We will release our source code based on PyTorch and the trained segmentation model at https://github.com/anheidelonghu/ACNet.

研究の動機と目的

屋内シーンにおけるRGBと深度特徴の不均一で非一様な情報分布の問題に対処すること。
既存のRGBDセグメンテーションネットワークが、元のブランチ表現を破壊する可能性がある過剰統合や不十分な統合の制限を克服すること。
チャネル単位のアテンションに基づいて、ネットワークの異なる深さでRGBおよび深度ブランチから最も情報量の多い特徴を適応的に選択・統合するメカニズムを設計すること。
RGBおよび深度の独立した推論経路を維持しつつ、マルチブランチアーキテクチャを介して効果的な統合を実現すること。
両モodalの補完的情報を活用することで、標準的なRGBDベンチマークにおけるセグメンテーション精度を向上させること。

提案手法

RGBおよび深度入力のための2つの独立したResNetエンコーダと、統合特徴のための第3の統合ブランチを備えた3ブランチアーキテクチャを採用する。
アテンション補完モジュール（ACM）を導入し、グローバル平均プーリングの後に1×1畳み込みとシグモイド活性化を適用してチャネル単位のアテンション重みを計算する。
計算されたアテンション重みを用いて、入力特徴マップに対してチャネル単位の要素ごとの乗算（外積）を実行し、情報量の多いチャネルを強調する。
重み付けされたRGBおよび深度特徴を要素ごとの加算により統合し、文脈に適応した動的特徴統合を実現する。
初期統合を避けるために、ネットワーク全体を通してRGBおよび深度の独立した特徴フローを維持する。
NYUDv2およびSUN-RGBDデータセットで学習率スケジューリングとデータオーグメンテーションを適用し、交差エントロピー損失を用いてネットワークを訓練する。

実験結果

リサーチクエスチョン

RQ1RGBと深度特徴の情報量や分布がシーンによって著しく異なる状況下で、どのようにして選択的に統合できるか？
RQ2学習可能なアテンションメカニズムは、ネットワークの異なる深さでRGBおよび深度ブランチからより情報量の多い特徴を効果的に同定・優先できるか？
RQ3初期統合やミドルレベル統合と比較して、独立したRGBおよび深度推論経路を維持しつつ、遅延統合を実現することで、セグメンテーション性能が向上するか？
RQ4提案されたACMは、RGBD特徴マップのチャネル間で冗長性を低減し、特徴分布を均一化する程度はどの程度か？
RQ5軽量バックボーン（例：ResNet-50）を用いても、提案アーキテクチャは標準的なRGBDベンチマークで最先端の性能を達成できるか？

主な発見

ACNetは、ResNet-50を用いてNYUDv2テストセットで48.3%のmIoUという、新たな最先端の性能を達成し、以前の手法を0.6ポイント上回る。
SUN-RGBDデータセットでは、ResNet-50を用いて48.1%のmIoUを達成し、より重いバックボーンを用いたCFN（RefineNet-152）と同等の性能を発揮するが、軽量バックボーンを採用している。
アブレーションスタディの結果、ACMを削除するとmIoUが44.3%（Model-1）に低下し、アテンションベースの特徴選択が性能に不可欠であることが示された。
マルチブランチアーキテクチャは顕著な貢献を示しており、ACMを除いたとしてもmIoUは46.8%に低下するが、ACMそのものによる性能向上は1.5%に相当する。
可視化と重み解析の結果、低層部（ConvおよびLayer1）ではRGB特徴が優勢である一方、高層部（Layer2–4）では深度特徴がより情報量が多くなることが確認され、動的モダリティ選択が実現している。
アテンション重みの標準偏差はConvからLayer3にかけて減少し、特徴分布の均一化が進むが、Layer4で再び増加する傾向を示しており、冗長な特徴の選択的削除が行われていることが裏付けられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。