[논문 리뷰] Vehicle Detection from 3D Lidar Using Fully Convolutional Network
이 논문은 Velodyne 64E 범위 스캔을 2D 맵으로 투사한 엔드-투-엔드 2D FCN을 제시하여 차량의 객체 가능성 및 3D 바운딩 박스를 예측하고 KITTI 범위 스캔 기반 탐지에서 최첨단 결과를 달성한다.
Convolutional network techniques have recently achieved great success in vision based detection tasks. This paper introduces the recent development of our research on transplanting the fully convolutional network technique to the detection tasks on 3D range scan data. Specifically, the scenario is set as the vehicle detection task from the range data of Velodyne 64E lidar. We proposes to present the data in a 2D point map and use a single 2D end-to-end fully convolutional network to predict the objectness confidence and the bounding boxes simultaneously. By carefully design the bounding box encoding, it is able to predict full 3D bounding boxes even using a 2D convolutional network. Experiments on the KITTI dataset shows the state-of-the-art performance of the proposed method.
연구 동기 및 목표
- 완전 합성곱 네트워크를 3D LiDAR 범위 스캔에 적용하여 차량 탐지를 수행하는 동기를 제시한다.
- 3D LiDAR 포인트를 2D 포인트 맵으로 투사하여 엔드-투-엔드 2D FCN 처리 가능성을 확보한다.
- 단일 프레임워크 내에서 객체 가능성과 전체 3D 바운딩 박스를 동시에 예측한다.
- 시점 변화에 대응하기 위한 회전 불변 바운딩 박스 인코딩을 설계한다.
- 엔드-투-엔드 학습을 사용하여 KITTI에서 경쟁력 있는 또는 최첨단 성능을 달성한다.
제안 방법
- Velodyne 64E LiDAR 포인트를 d, z 채널을 가진 2D 포인트 맵으로 변환한다.
- 공유 트렁크와 두 개의 헤드(객체 가능성 분류 및 24D 바운딩 박스 회귀)를 갖는 2D 완전 합성곱 네트워크를 사용한다.
- 회전 R로 모서리 좌표를 변환하고 객체당 8개의 모서리점을 보고하여 3D 바운딩 박스를 인코딩한다.
- 다중 계층의 피처 맵을 연결해 작은 물체 및 모서리 예측을 향상시킨다.
- 기하학 보존적 3D 변환과 다중 작업 손실 균형화를 통한 데이터 증강을 적용한다.
- 전경/배경의 가중 손실 및 다양한 물체 크기/거리의 균형을 맞춰 학습한다.
실험 결과
연구 질문
- RQ13D LiDAR 범위 스캔의 2D 투영에서 직접 작동하는 완전 합성곱 네트워크가 차량을 탐지할 수 있는가?
- RQ22D 합성곱 백본이 전체 3D 박스를 예측할 수 있도록 3D 바운딩 박스를 어떻게 인코딩할 수 있는가?
- RQ3객체 가능성과 3D 박스 회귀를 공동으로 수행하는 것이 전통적인 제안 기반 방법보다 LiDAR 데이터에서 탐지를 개선하는가?
- RQ4LiDAR 기반 차량 탐지를 위해 어떤 데이터 세트와 평가 프로토콜(KITTI)이 최첨단 성능을 입증할 수 있는가?
- RQ5데이터 증강과 손실 균형화가 희박한 LiDAR 포인트 구름에서의 학습에 어떤 영향을 미치는가?
주요 결과
| 난이도 | 이미지 공간 AP | 이미지 공간 AOS | 월드 공간 AP | 월드 공간 AOS |
|---|---|---|---|---|
| Easy | 74.1% | 73.9% | 77.3% | 77.2% |
| Moderate | 71.0% | 70.9% | 72.4% | 72.3% |
| Hard | 70.0% | 69.9% | 69.4% | 69.4% |
- 제안된 FCN은 KITTI 범위-스캔 데이터에서 탐지 성능이 높으며 Easy 설정에서 세계 공간(AP/AOS) 최첨단 성능을 달성한다.
- 오프라인 세계 공간 AP: Easy 77.3%, Moderate 72.4%, Hard 69.4%; 오프라인 세계 공간 AOS: Easy 77.2%, Moderate 72.3%, Hard 69.4%.
- 이미지 공간 AP/AOS는 세계 공간보다 약간 낮아 2D 투영 중첩과 3D 위치 추정의 차이를 반영한다.
- 부분적으로 보이는 차량에 대해서도 완전한 3D 바운딩 박스를 예측할 수 있어 추적 및 계획에 도움이 된다.
- 이전 범위-스캔 방법과 비교하여 Easy에서 AP가 향상되고 Moderate/Hard에서 경쟁력 있는 AP를 보이며, 방향 추정(AOS)도 우수하다.
- 다층 피처 연결을 통한 네트워크의 이점으로 소형 물체 및 가장자리 예측이 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.