[論文レビュー] DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation
DFormer は RGB-D バックボーンを画像と深度のペアで事前学習させ(RGB のみではなく)、エンコーダ内でRGBと深度を密に統合するRGB-Dブロックを導入し、計算コストを抑えつつRGB-D Semantic分割とRGB-D顕著性物体検出の最先端性能を達成します。
We present DFormer, a novel RGB-D pretraining framework to learn transferable representations for RGB-D segmentation tasks. DFormer has two new key innovations: 1) Unlike previous works that encode RGB-D information with RGB pretrained backbone, we pretrain the backbone using image-depth pairs from ImageNet-1K, and hence the DFormer is endowed with the capacity to encode RGB-D representations; 2) DFormer comprises a sequence of RGB-D blocks, which are tailored for encoding both RGB and depth information through a novel building block design. DFormer avoids the mismatched encoding of the 3D geometry relationships in depth maps by RGB pretrained backbones, which widely lies in existing methods but has not been resolved. We finetune the pretrained DFormer on two popular RGB-D tasks, i.e., RGB-D semantic segmentation and RGB-D salient object detection, with a lightweight decoder head. Experimental results show that our DFormer achieves new state-of-the-art performance on these two tasks with less than half of the computational cost of the current best methods on two RGB-D semantic segmentation datasets and five RGB-D salient object detection datasets. Our code is available at: https://github.com/VCIP-RGBD/DFormer.
研究の動機と目的
- 事前学習と下流のRGB-Dタスク間の分布ミスマッチを回避するため、バックボーン内で直接RGB-D表現学習を動機づける。
- 事前学習とファインチューニングの両方でRGBと深度情報をネイティブに融合するブロックを備えたRGB-Dエンコーダを設計する。
- 深度チャネルをRGBより少ないチャンネル数でエンコードできることを示し、性能を損なわずにモデルサイズを削減する。
- 以前の手法より低い計算量でRGB-DセマンティックセグメンテーションとRGB-D顕著性物体検出で最先端の結果を示す。
提案手法
- DFormer を提案する。画像と深度のペアを事前学習時の入力として用い、RGBバックボーンの不整合を生じさせずにRGB-D表現を可能にするRGB-D事前学習フレームワーク。
- Global Awareness Attention (GAA) と Local Enhancement Attention (LEA) モジュールを介して各ブロック内で横断モダリティ相互作用を行うRGB-Dブロックを備えた階層的なRGB-Dエンコーダを導入する。
- GAA はRGB-D特徴からのダウンサンプルされたクエリでRGBと深度を結合し、RGB由来のキー/バリューを使用して計算を削減する。
- LEA は深度特徴に大きなカーネルの深さ方向畳み込みを用いて注意重みを生成し、Hadamard積によってRGB特徴を再重み付けする。
- 基本モジュールはRGB特徴を変換し、融合特徴は連結と線形射影を通ってRGBと深度特徴を更新する。
- 事前学習では深度推定器で生成されたImageNet-1K画像-深度ペアを使用し、分類目的と標準的な最適化設定(AdamW、1e-3 学習率、300 エポック)を適用する。
- 下流タスクには、事前学習済みRGB-Dバックボーンの上に軽量デコーダーヘッドを用いる(デコーダーは分割のためにRGB特徴のみを使用)。
実験結果
リサーチクエスチョン
- RQ1画像-深度ペアでのRGB-D事前学習は、下流のRGB-Dタスクへ転用可能なRGB-D表現を生み出すか?
- RQ2RGB-Dブロック内でRGBと深度の相互作用を統合することは、二重バックボーンの融合アプローチと比較して効率と精度を改善するか?
- RQ3効率的なRGB-Dエンコーディングのための深度チャネルの最適な予算はRGBチャネルに対してどの程度か?
- RQ4RGB-D事前学習済みバックボーンは、計算量を削減した上でRGB-DセマンティックセグメンテーションとRGB-D顕著性物体検出タスクの両方に対して一般化するか?
主な発見
- DFormer は NYU Depthv2 で新しい最先端の mIoU を達成(DFormer-L で 57.2%)し、SUN-RGBD で強力な結果を示し、従来法の多くより計算量が半分以下。
- DFormer-T/S/B/L バリアントは精度と計算量の有利なトレードオフを提供し、DFormer-L は NYU Depthv2 で 57.2% mIoU を 65.7G FLOPs と 39.0M パラメータで達成。
- RGB-D事前学習はRGBのみの事前学習より測定可能な改善をもたらす(例:DFormer-B は NYU Depthv2 で 2.3% mIoU 改善)。
- 下流デコーダーにRGB特徴のみを用いるだけで競争力のある性能を得られ、軽量なデコーダ設計と低推論コストを実現する。
- 深度特徴はチャネルの一部だけを必要とし(デフォルトで比率を1/2に設定)、強力な結果を達成しつつモデルサイズを削減する。
- アブレーションはRGB-Dブロックのコンポーネント(Base、GAA、LEA)がそれぞれ性能に寄与することを示し、Hadamard重み付けのLEA融合が堅牢な局所的な深度–RGB 相互作用を提供する。
- RGB-D事前学習はRGB-TおよびRGB-Lのベンチマークも改善し、RGB-Dデータを超えたより広いモダリティ間の相互作用の利点を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。