[論文レビュー] RFBNet: Deep Multimodal Networks with Residual Fusion Blocks for RGB-D Semantic Segmentation
RFBNetはRGBと深度ストリームを統合するためのボトムアップの対話的融合を残差融合ブロックで実現し、RGB-DセマンティックセグメンテーションにおいてScanNetとCityscapesのベンチマークで最先端の結果を達成します。
RGB-D semantic segmentation methods conventionally use two independent encoders to extract features from the RGB and depth data. However, there lacks an effective fusion mechanism to bridge the encoders, for the purpose of fully exploiting the complementary information from multiple modalities. This paper proposes a novel bottom-up interactive fusion structure to model the interdependencies between the encoders. The structure introduces an interaction stream to interconnect the encoders. The interaction stream not only progressively aggregates modality-specific features from the encoders but also computes complementary features for them. To instantiate this structure, the paper proposes a residual fusion block (RFB) to formulate the interdependences of the encoders. The RFB consists of two residual units and one fusion unit with gate mechanism. It learns complementary features for the modality-specific encoders and extracts modality-specific features as well as cross-modal features. Based on the RFB, the paper presents the deep multimodal networks for RGB-D semantic segmentation called RFBNet. The experiments on two datasets demonstrate the effectiveness of modeling the interdependencies and that the RFBNet achieved state-of-the-art performance.
研究の動機と目的
- RGBと深度エンコーダ間の相関を効果的に活用して堅牢なRGB-Dセマンティックセグメンテーションを動機づける。
- クロスモーダル特徴学習を可能にする残差融合ブロックを含むボトムアップ対話構造を提案する。
- 性能を維持しつつ深度ストリームを縮小して計算負荷を軽減する。
- 室内データセット(ScanNet)と屋外データセット(Cityscapes)で最先端の性能を示す。
提案手法
- RGBストリーム、深度ストリーム、対話ストリームの3ストリームアーキテクチャを導入する。
- 残差融合ブロック(RFB)は、2つのモダリティ固有の残差ユニットとゲーティング融合ユニットから成り、補完的なクロスモーダル特徴を学習する。
- GFUを介してクロモーダル情報を4ゲート機構でゲーティングし、上位層でモダリティ間を融合するボトムアップ対話機構を用いる。
- 計算を抑えるために深度ストリームを縮小しつつ、RGB特徴と深度を融合させるように深度を揃える。
- RFBをRGB-D融合の基盤フレームワーク(SSMA)に組み込み、ScanNetとCityscapesで評価する。
実験結果
リサーチクエスチョン
- RQ1明示的なボトムアップ対話的融合は、従来の早期・後期・多段階融合スキームよりRGB-Dセマンティックセグメンテーションを改善するか?
- RQ2残差融合ブロックはRGBと深度エンコーダ間の相互依存性を効果的にモデル化してセグメンテーション精度を向上させるか?
- RQ3深度ストリームの解像度を低減することが全体の性能と効率にどのような影響を与えるか?
- RQ4RFBNetは室内・屋外のRGB-Dデータセット全体で最先端の方法と比較してどのような性能を示すか?
主な発見
- RFBNetはScanNetでSSMAやFuseNetなどのベースラインを常に上回り、mIoUは59.2%である。
- CityscapesではERFNetEncを用いたRFBNetはテストで69.7%のmIoUに到達し、AdapNet++を用いた場合はテストで74.8%のmIoU(マルチモーダル)に到達する。
- アブレーションによりゲートは0.4%の効率向上をもたらし、RFBを介して補完的な特徴を追加(Rオプション)すると追加で0.9%の利得を生み、トランクのみの追加を上回る。
- 深度入力を縮小すると深度ベースの計算が約75%削減され、対話的融合と組み合わせた場合には控えめまたは正の効果を示す。
- RFB構造はエンコーダが情報を交換し、モダリティ固有の強みを保ちつつクロ-modal特徴を生成できるようにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。