QUICK REVIEW

[論文レビュー] Radar-Camera Sensor Fusion for Joint Object Detection and Distance Estimation in Autonomous Vehicles

Ramin Nabati, Hairong Qi|arXiv (Cornell University)|Sep 17, 2020

Advanced Neural Network Applications参考文献 29被引用数 32

ひとこと要約

radar-カメラの中間融合ネットワークを提案し、レーダーに基づく3D提案を生成し、画像特徴でそれを洗練させ、画像提案と統合し、nuScenes上で距離推定を伴う物体を共同検出する。

ABSTRACT

In this paper we present a novel radar-camera sensor fusion framework for accurate object detection and distance estimation in autonomous driving scenarios. The proposed architecture uses a middle-fusion approach to fuse the radar point clouds and RGB images. Our radar object proposal network uses radar point clouds to generate 3D proposals from a set of 3D prior boxes. These proposals are mapped to the image and fed into a Radar Proposal Refinement (RPR) network for objectness score prediction and box refinement. The RPR network utilizes both radar information and image feature maps to generate accurate object proposals and distance estimations. The radar-based proposals are combined with image-based proposals generated by a modified Region Proposal Network (RPN). The RPN has a distance regression layer for estimating distance for every generated proposal. The radar-based and image-based proposals are merged and used in the next stage for object classification. Experiments on the challenging nuScenes dataset show our method outperforms other existing radar-camera fusion methods in the 2D object detection task while at the same time accurately estimates objects' distances.

研究の動機と目的

自動運転のための2D物体検出と距離推定を改善する radar-カメラ融合フレームワークを開発する。
レーダーポイントクラウドを活用して3D提案を生成し、画像特徴でそれを洗練させて正確な局在化を図る。
難しいシーンでの検出を向上させるために、レーダーベースの提案と画像ベースの提案を組み合わせる。
物体分類に加えて検出ごとの距離推定を提供する。

提案手法

レーダー検出が3Dアンカーを生成し、それを2D画像提案に射影する中間融合アーキテクチャを用い、次に画像バックボーン特徴を用いたRPRネットワークで洗練させる。
レーダーポイントにアンカーされた3Dアンカーからレーダー基づく提案を生成し、クラスごとに2つの向きで画像へマップして2D提案と深度を得る。
RoIプーリングを用いるRadar Proposal Refinement (RPR) ネットワークでレーダー提案を洗練し、物体性スコアとボックスの洗練を出力する。
画像ベースのRegion Proposal Network (RPN) を用いて補完的な提案を生成し、画像提案の深度を推定する距離回帰層を追加する。
IoUベースのマッチングでレーダー提案と画像提案を統合し、matched の場合には画像の距離をレーダー距離で上書きし、次に二段階目の Fast R-CNN風分類を行う。
Faster R-CNNスタイルの定式化に従い、両方の提案ストリームにまたがる分類損失と回帰損失を組み合わせたマルチタスク損失で訓練する。

実験結果

リサーチクエスチョン

RQ1レーダーポイントクラウドを効果的に3D物体提案へ変換し、画像データと良く整合して共同検出と距離推定を達成できるか？
RQ2レーダー由来の提案と画像由来の提案を融合させることで、自動運転データにおける2D検出性能と深度精度は向上するか？
RQ3レーダーと画像の両方のモダリティを活用したとき、検出された各物体の距離はどの程度正確に推定できるか？

主な発見

加重AP	AP	AP50	AP75	AR	MAE
Faster R-CNN	No	34.95	58.23	36.89	40.21	-
RRPN	No	35.45	59.00	37.00	42.10	-
Ours	No	35.60	60.53	37.38	42.10	2.65
Faster R-CNN	Yes	43.78	-	-	-	-
CRF-Net	Yes	43.95	-	-	-	-
Ours	Yes	44.49	-	-	-	-

提案手法は nuScenes の検証集合で RRPN および CRF-Net を上回る2D物体検出性能を示した。
全画像に対する距離推定のMAEは2.65メートルである。
クラス別MAEの結果は、車両・トラック・バスのような大きな物体で距離誤差が大きいことを示しており、複数のレーダ検出とエッジと中心距離のずれによるもの。
レーダー提案と画像提案の統合により、ベースラインと比較してAPおよびAP50/AP75 指標が改善された。
レーダーと画像の両方のストリームを用いることで相補的な利点が得られ、全体の検出性能が向上します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。