QUICK REVIEW

[논문 리뷰] Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net

Wenjie Luo, Bin Yang|arXiv (Cornell University)|2020. 12. 22.

Advanced Vision and Imaging참고 문헌 26인용 수 348

한 줄 요약

FaF는 BEV 격자화 포인트 클라우드로부터 모션을 함께 탐지, 추적 및 예측하는 엔드투엔드 단일 3D CNN을 제안하며, 최대 30 ms의 속도로 실행되고 이전 방법보다 우수한 성능을 보인다.

ABSTRACT

In this paper we propose a novel deep neural network that is able to jointly reason about 3D detection, tracking and motion forecasting given data captured by a 3D sensor. By jointly reasoning about these tasks, our holistic approach is more robust to occlusion as well as sparse data at range. Our approach performs 3D convolutions across space and time over a bird's eye view representation of the 3D world, which is very efficient in terms of both memory and computation. Our experiments on a new very large scale dataset captured in several north american cities, show that we can outperform the state-of-the-art by a large margin. Importantly, by sharing computation we can perform all tasks in as little as 30 ms.

연구 동기 및 목표

3D 탐지, 추적 및 모션 예측에 대한 포괄적 접근의 필요성을 제시하여 모호화 및 데이터 희박성에 대한 강건성을 향상시킨다.
단일 스테이지의 엔드투엔드 네트워크를 개발하여 시간적 BEV 표현을 활용한 공동 작업을 수행한다.
주요 목적은 작업 간 공유된 계산이 실시간 성능과 정확도 향상을 가져오는지 보여주는 것이다.

제안 방법

3D LiDAR 데이터를 BEV 격자(Grid)로 표현하고 높이를 채널로 취급하는 2D 합성곱을 적용해 단일 프레임에서 희소성 낭비를 피한다.
시간적 격자를 4D 텐서로 누적하여 다중 프레임으로 확장하고, 초기 융합과 후기 융합의 시간적 집계 방식을 비교한다.
BEV에서 미리 정의된 앵커를 사용하는 SSD 스타일의 다중 상자 예측으로 박스 위치, 크기, 방향(사인/코사인)을 부드러운 L1 손실로 예측한다.
현재 탐지와 과거 미래 예측을 합쳐 트랙 아이디를 강화된 트랙ID로 형성하여occlusion을 통과하도록 트랙릿을 디코딩한다.
현재 프레임과 미래 프레임(n-프레임 예측) 간의 분류 및 회귀 항을 결합한 공동 손실로 학습한다.
대규모 도시 규모의 LiDAR 데이터셋에서 탐지, 추적 및 모션 예측을 함께 평가한다.

실험 결과

연구 질문

RQ1단일 엔드투엔드 3D CNN이 다중 프레임 LiDAR BEV 표현으로 함께 탐지, 추적 및 모션 예측을 수행할 수 있는가?
RQ2탐지, 추적 및 예측 간에 계산을 공유하는 것이 강건성(occlusion) 및 원거리 희소성에 대해 실시간 지연 목표를 충족하면서 향상시키는가?
RQ3초기 융합과 후기 융합 시간적 전략이 정확도와 효율성 면에서 어떻게 비교되는가?
RQ4FaF를 사용할 때 상태-아웃 baselines와 비교하여 탐지 mAP, 추적 지표 및 단기 예측 오차에서 어떤 양적 이득이 있는가?

주요 결과

Model	IoU 0.5	IoU 0.6	IoU 0.7	IoU 0.8	IoU 0.9	Time [ms]
SqueezeNet_v1.1 [12]	85.80	81.06	69.97	43.20	3.70	9
SSD [17]	90.23	86.76	77.92	52.39	5.87	23
MobileNet [10]	90.56	87.05	78.39	52.10	5.64	65
FaF	93.24	90.54	83.10	61.61	11.83	30

FaF는 3D에 맞춰 수정된 2D 탐지기와의 비교에서 유사하거나 더 빠른 지연으로 더 높은 탐지 mAP를 달성하며 IoU 0.7에서 기준선을 능가한다.
Ablation 결과, late fusion이 early fusion에 비해 mAP를 1.4% 포인트 향상시키고, 미래 프레임 예측을 추가하면 단일 프레임 탐지기에 비해 IoU 0.7에서 약 +6 포인트의 mAP 향상을 보인다.
추적 성능은 Hungarian 기준선에 비해 MOTA에서 6% 증가하고 MT는 20% 증가한다.
모션 예측은 10 프레임 ahead 예측에서 평균 L2 오차가 0.33 미터 이하로 달성된다.
FaF는 30 ms까지 실행되어 자율주행에서 실시간 단일 탐지, 추적 및 예측을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.