[논문 리뷰] Radar-Camera Sensor Fusion for Joint Object Detection and Distance Estimation in Autonomous Vehicles
중간 융합 레이더-카메라 네트워크를 제안하여 레이더 기반 3D 제안을 생성하고, 이미지 특징으로 이를 정제하며, 이미지 제안과 병합하고 nuScenes에서 거리 추정과 함께 객체를 공동 탐지한다.
In this paper we present a novel radar-camera sensor fusion framework for accurate object detection and distance estimation in autonomous driving scenarios. The proposed architecture uses a middle-fusion approach to fuse the radar point clouds and RGB images. Our radar object proposal network uses radar point clouds to generate 3D proposals from a set of 3D prior boxes. These proposals are mapped to the image and fed into a Radar Proposal Refinement (RPR) network for objectness score prediction and box refinement. The RPR network utilizes both radar information and image feature maps to generate accurate object proposals and distance estimations. The radar-based proposals are combined with image-based proposals generated by a modified Region Proposal Network (RPN). The RPN has a distance regression layer for estimating distance for every generated proposal. The radar-based and image-based proposals are merged and used in the next stage for object classification. Experiments on the challenging nuScenes dataset show our method outperforms other existing radar-camera fusion methods in the 2D object detection task while at the same time accurately estimates objects' distances.
연구 동기 및 목표
- 자율 주행을 위한 2D 객체 탐지와 거리 추정을 개선하기 위한 레이더-카메라 융합 프레임워크를 개발합니다.
- 레이더 포인트 클라우드를 활용하여 3D 제안을 생성하고 이미지 특징으로 정제하여 정확한 위치 추정.
- 레이더 기반 제안과 이미지 기반 제안을 결합하여 도전적인 장면에서 탐지를 향상시킵니다.
- 객체 분류 외에 탐지당 거리 추정치를 제공합니다.
제안 방법
- 레이더 탐지가 3D 앵커를 생성하고 이를 2D 이미지 제안으로 투영한 뒤, 이미지 백본 특징을 사용하는 RPR 네트워크로 정제하는 중간 융합 아키텍처를 사용합니다.
- 레이더 포인트에 고정된 3D 앵커에서 레이더 기반 제안을 생성하며, 클래스당 두 가지 방향으로 맵핑되어 이미지에 매핑되어 2D 제안과 깊이를 제공합니다.
- RoI 풀링을 사용하는 Radar Proposal Refinement (RPR) 네트워크로 레이더 제안을 정제하고 객체성 점수와 상자 보정을 출력합니다.
- 이미지 기반 Region Proposal Network (RPN)을 사용하여 보완 제안을 생성합니다; 이미지 제안에 대한 깊이 추정을 위해 거리 회귀 층을 추가합니다.
- IoU 기반 매칭을 통해 레이더와 이미지 제안을 병합하고 일치하는 경우 이미지 거리 값을 레이더 거리로 대체한 뒤, 2단계 Fast R-CNN 유사 분류를 수행합니다.
- Faster R-CNN 스타일의 공식에 따라 두 제안 스트림 간의 분류 및 회귀 손실을 결합한 다중 작업 손실로 학습합니다.
실험 결과
연구 질문
- RQ1레이더 포인트 클라우드를 이미지 데이터와 잘 정렬되는 3D 객체 제안으로 효과적으로 변환하여 공동 탐지 및 거리 추정을 할 수 있는가?
- RQ2레이더로 도출된 제안과 이미지로 도출된 제안을 융합하면 자율주행 데이터에서 2D 탐지 성능과 깊이 정확도가 향상되는가?
- RQ3레이더와 이미지 모달리티를 함께 활용할 때 각 탐지된 객체의 거리를 얼마나 잘 추정할 수 있는가?
주요 결과
| 가중 AP | AP | AP50 | AP75 | AR | MAE | |
|---|---|---|---|---|---|---|
| Faster R-CNN | No | 34.95 | 58.23 | 36.89 | 40.21 | - |
| RRPN | No | 35.45 | 59.00 | 37.00 | 42.10 | - |
| Ours | No | 35.60 | 60.53 | 37.38 | 42.10 | 2.65 |
| Faster R-CNN | Yes | 43.78 | - | - | - | - |
| CRF-Net | Yes | 43.95 | - | - | - | - |
| Ours | Yes | 44.49 | - | - | - | - |
- 제안된 방법은 nuScenes 검증 세트에서 RRPN 및 CRF-Net보다 2D 객체 탐지 성능이 우수하다.
- 본 방법은 모든 이미지에 대해 거리 추정의 평균 절대 오차(MAE)가 2.65 미터이다.
- 클래스별 MAE 결과는 차가 큰 자동차, 트럭, 버스와 같은 큰 객체에서 더 높은 거리 오차를 보이며, 이는 여러 레이더 탐지 및 가장자리-중심 거리 차이로 인한 것.
- 레이더 제안을 이미지 제안과 결합하면 베이스라인 대비 AP 및 AP50/AP75 지표가 향상된다.
- 레이더와 이미지 스트림을 함께 사용하면 보완적 강점이 있어 전반적인 탐지 성능이 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.