[논문 리뷰] Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net
FaF는 BEV 격자화 포인트 클라우드로부터 모션을 함께 탐지, 추적 및 예측하는 엔드투엔드 단일 3D CNN을 제안하며, 최대 30 ms의 속도로 실행되고 이전 방법보다 우수한 성능을 보인다.
In this paper we propose a novel deep neural network that is able to jointly reason about 3D detection, tracking and motion forecasting given data captured by a 3D sensor. By jointly reasoning about these tasks, our holistic approach is more robust to occlusion as well as sparse data at range. Our approach performs 3D convolutions across space and time over a bird's eye view representation of the 3D world, which is very efficient in terms of both memory and computation. Our experiments on a new very large scale dataset captured in several north american cities, show that we can outperform the state-of-the-art by a large margin. Importantly, by sharing computation we can perform all tasks in as little as 30 ms.
연구 동기 및 목표
- 3D 탐지, 추적 및 모션 예측에 대한 포괄적 접근의 필요성을 제시하여 모호화 및 데이터 희박성에 대한 강건성을 향상시킨다.
- 단일 스테이지의 엔드투엔드 네트워크를 개발하여 시간적 BEV 표현을 활용한 공동 작업을 수행한다.
- 주요 목적은 작업 간 공유된 계산이 실시간 성능과 정확도 향상을 가져오는지 보여주는 것이다.
제안 방법
- 3D LiDAR 데이터를 BEV 격자(Grid)로 표현하고 높이를 채널로 취급하는 2D 합성곱을 적용해 단일 프레임에서 희소성 낭비를 피한다.
- 시간적 격자를 4D 텐서로 누적하여 다중 프레임으로 확장하고, 초기 융합과 후기 융합의 시간적 집계 방식을 비교한다.
- BEV에서 미리 정의된 앵커를 사용하는 SSD 스타일의 다중 상자 예측으로 박스 위치, 크기, 방향(사인/코사인)을 부드러운 L1 손실로 예측한다.
- 현재 탐지와 과거 미래 예측을 합쳐 트랙 아이디를 강화된 트랙ID로 형성하여occlusion을 통과하도록 트랙릿을 디코딩한다.
- 현재 프레임과 미래 프레임(n-프레임 예측) 간의 분류 및 회귀 항을 결합한 공동 손실로 학습한다.
- 대규모 도시 규모의 LiDAR 데이터셋에서 탐지, 추적 및 모션 예측을 함께 평가한다.
실험 결과
연구 질문
- RQ1단일 엔드투엔드 3D CNN이 다중 프레임 LiDAR BEV 표현으로 함께 탐지, 추적 및 모션 예측을 수행할 수 있는가?
- RQ2탐지, 추적 및 예측 간에 계산을 공유하는 것이 강건성(occlusion) 및 원거리 희소성에 대해 실시간 지연 목표를 충족하면서 향상시키는가?
- RQ3초기 융합과 후기 융합 시간적 전략이 정확도와 효율성 면에서 어떻게 비교되는가?
- RQ4FaF를 사용할 때 상태-아웃 baselines와 비교하여 탐지 mAP, 추적 지표 및 단기 예측 오차에서 어떤 양적 이득이 있는가?
주요 결과
| Model | IoU 0.5 | IoU 0.6 | IoU 0.7 | IoU 0.8 | IoU 0.9 | Time [ms] |
|---|---|---|---|---|---|---|
| SqueezeNet_v1.1 [12] | 85.80 | 81.06 | 69.97 | 43.20 | 3.70 | 9 |
| SSD [17] | 90.23 | 86.76 | 77.92 | 52.39 | 5.87 | 23 |
| MobileNet [10] | 90.56 | 87.05 | 78.39 | 52.10 | 5.64 | 65 |
| FaF | 93.24 | 90.54 | 83.10 | 61.61 | 11.83 | 30 |
- FaF는 3D에 맞춰 수정된 2D 탐지기와의 비교에서 유사하거나 더 빠른 지연으로 더 높은 탐지 mAP를 달성하며 IoU 0.7에서 기준선을 능가한다.
- Ablation 결과, late fusion이 early fusion에 비해 mAP를 1.4% 포인트 향상시키고, 미래 프레임 예측을 추가하면 단일 프레임 탐지기에 비해 IoU 0.7에서 약 +6 포인트의 mAP 향상을 보인다.
- 추적 성능은 Hungarian 기준선에 비해 MOTA에서 6% 증가하고 MT는 20% 증가한다.
- 모션 예측은 10 프레임 ahead 예측에서 평균 L2 오차가 0.33 미터 이하로 달성된다.
- FaF는 30 ms까지 실행되어 자율주행에서 실시간 단일 탐지, 추적 및 예측을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.