QUICK REVIEW

[論文レビュー] HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object Detection

Tim Broedermann, Christos Sakaridis|arXiv (Cornell University)|Jun 30, 2022

Advanced Neural Network Applications被引用数 3

ひとこと要約

HRFuser は、カメラ、ライダー、レーダー、ゲート付きカメラ入力を、新規のマルチウインドウクロスアテンション（MWCA）ブロックを用いて統合するモジュラーでマルチリゾリューションのセンサーフュージョンアーキテクチャであり、ネットワーク全体で高リゾリューションの特徴を保持する。nuScenes および DENSE で最先端の性能を達成しており、1つのモダリティを追加しても FLOPs が +9.7%、パラメータが +1.9% 増加するにとどまる。

ABSTRACT

Besides standard cameras, autonomous vehicles typically include multiple additional sensors, such as lidars and radars, which help acquire richer information for perceiving the content of the driving scene. While several recent works focus on fusing certain pairs of sensors - such as camera with lidar or radar - by using architectural components specific to the examined setting, a generic and modular sensor fusion architecture is missing from the literature. In this work, we propose HRFuser, a modular architecture for multi-modal 2D object detection. It fuses multiple sensors in a multi-resolution fashion and scales to an arbitrary number of input modalities. The design of HRFuser is based on state-of-the-art high-resolution networks for image-only dense prediction and incorporates a novel multi-window cross-attention block as the means to perform fusion of multiple modalities at multiple resolutions. We demonstrate via extensive experiments on nuScenes and the adverse conditions DENSE datasets that our model effectively leverages complementary features from additional modalities, substantially improving upon camera-only performance and consistently outperforming state-of-the-art 3D and 2D fusion methods evaluated on 2D object detection metrics. The source code is publicly available.

研究の動機と目的

自動運転におけるマルチモーダル2次元オブジェクト検出のための汎用的でモジュラーなセンサーフュージョントップロジーの不足に応える。
視界が悪く、深度情報が欠如する悪天候条件下で、カメラオンリーのモデルが失敗するのを改善する。
特殊なコンponentsをモダリティごとに用意せず、任意の数のセンサー（例：ライダー、レーダー、ゲート付きカメラ）のスケーラブルな統合を可能にする。
密度の高い予測タスクにおける微細な空間的詳細を保持するため、ネットワーク全体で高リゾリューションの特徴表現を維持する。
レーダーのような低品質なセンサーからのノイズを低減しつつ、すべてのモダリティの補完的特徴を活用する効率的な統合メカニズムを開発する。

提案手法

HRFuser は、主なカメラブランチで高リゾリューション特徴を維持するとともに、各二次的モダリティに対して軽量で高リゾリューションのブランチを追加することで、高リゾリューションネットワークパラダイムをマルチモーダル入力へと拡張する。
コアとなる統合メカニズムは、重複しない空間的ウインドウ内でクロスアテンションを適用するマルチウインドウクロスアテンション（MWCA）ブロックであり、2次関数的複雑度を低減し、効率的なマルチリゾリューション統合を可能にする。
統合は、カメラバックボーンの複数の特徴レベルおよびリゾリューションで実行され、マルチモーダル特徴の階層的・マルチスケール統合を可能にする。
各二次的モダリティは、MWCA を介してカメラ特徴と統合される前に、モダリティ固有の軽量エンコーダーを通過する。
アーキテクチャはモジュラーである：新しいセンサーを追加するには、新しい軽量ブランチと MWCA ブロックのみが必要で、アーキテクチャの再設計は不要である。
モデルは、マルチモーダル特徴上で標準的な2次元検出ヘッド（例：CenterNet）を用いてエンドツーエンドで訓練され、検出性能を最適化する損失関数が使用される。

実験結果

リサーチクエスチョン

RQ1汎用的でモジュラーなセンサーフュージョントップロジーは、多様なセンサーモダリティおよび悪条件下で2次元オブジェクト検出性能を効果的に向上させることができるか？
RQ2新規のアテンションメカニズムを用いたマルチリゾリューション・マルチレベル統合は、従来のイ早・遅・中間統合戦略を上回る性能を示すか？
RQ3効率的なアテンションメカニズムを用いて高リゾリューションカメラ特徴と統合することで、ノイズの多いセンサー（例：レーダー）が検出性能にどの程度寄与できるか？
RQ4追加センサーの数が増加するに従って計算コストはどのように変化するか？また、リアルタイム推論効率を維持できるか？
RQ53次元アノテーションが欠落している極端な状況（例：濃い霧）において、2次元アノテーションのみに依存してモデルは一般化可能か？

主な発見

HRFuser は、RGB、ライダー、レーダー、ゲート付きカメラの4つのモダリティをすべて使用した場合、nuScenes テストセットで 90.15% の AP を達成し、カメラオンリーの HRFormer-T（26.5% AP）および BEVFusion（31.5% AP）を上回った。
DENSE データセットの濃い霧スプリットでは、HRFuser は 89.62% の AP を達成し、カメラオンリーの HRFormer-T（78.68% AP）および他の SOTA 3次元統合手法（2次元で評価）を著しく上回った。
1つのモダリティ（例：ライダーまたはレーダー）を追加しても、FLOPs は +9.7%、パラメータは +1.9% のみ増加し、高い計算効率を示した。
DENSE データセットにおいて、MWCA ブロックは、CA より 1.7%、PVTv2-Li-CA より 2.0% の性能向上を達成し、ノイズのフィルタリングと関連特徴への注目を効果的に可能にした。
定性的な結果では、HRFuser は HRFormer-T が見逃す曇りや雪の中の遮蔽された、あるいは遠く離れた車両を検出でき、悪天候下での優れた耐性を示した。
アブレーションスタディの結果、MWCA を用いたマルチリゾリューション・マルチレベル統合が不可欠であることが確認され、これを除去すると nuScenes で 1.5 AP 以上の性能低下が生じた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。