QUICK REVIEW

[논문 리뷰] Joint 3D Proposal Generation and Object Detection from View Aggregation

Jason S. Ku, Melissa Mozifian|arXiv (Cornell University)|2017. 12. 06.

Advanced Neural Network Applications참고 문헌 18인용 수 135

한 줄 요약

AVOD는 고해상도 LiDAR BEV와 RGB 이미지 특징을 2단계 네트워크(RPN 및 2단계 탐지기)에서 융합하여 3D 제안을 생성하고 방향성 있는 3D 경계 상자를 정확하게 탐지하며, 실시간 성능으로 KITTI에서 최첨단 결과를 달성합니다.

ABSTRACT

We present AVOD, an Aggregate View Object Detection network for autonomous driving scenarios. The proposed neural network architecture uses LIDAR point clouds and RGB images to generate features that are shared by two subnetworks: a region proposal network (RPN) and a second stage detector network. The proposed RPN uses a novel architecture capable of performing multimodal feature fusion on high resolution feature maps to generate reliable 3D object proposals for multiple object classes in road scenes. Using these proposals, the second stage detection network performs accurate oriented 3D bounding box regression and category classification to predict the extents, orientation, and classification of objects in 3D space. Our proposed architecture is shown to produce state of the art results on the KITTI 3D object detection benchmark while running in real time with a low memory footprint, making it a suitable candidate for deployment on autonomous vehicles. Code is at: https://github.com/kujason/avod

연구 동기 및 목표

다중 모달 데이터(LiDAR 및 이미지)를 활용하여 2D 탐지의 진행과 3D 탐지 사이의 격차를 축소한다.
BEV 및 이미지 공간을 위한 고해상도이면서도 작은 계산 자원을 차지하는 특징 추출기를 개발한다.
도로 씬에서 작은 객체 클래스에 대해 높은 재현율을 달성하는 다중 모달 RPN을 설계한다.
작고 물리적으로 일관된 3D 박스 인코딩과 명시적 방향 회귀를 제안한다.
도전적인 조건에서도 KITTI에서 실시간 성능과 강건성을 입증한다.

제안 방법

높이 및 밀도 채널이 있는 보셀화된 LiDAR 데이터로 6채널 BEV 맵을 생성한다.
두 뷰에 대해 공유 피처 맵을 생성하기 위해 인코더–디코더(FPN에서 영감을 받은) 형식의 고해상도 피처 추출기를 사용한다.
3D 앵커를 BEV 및 이미지 피처 맵으로 투사하고, 차원 축소를 위해 1×1 합성곱을 적용하며, crop-and-resize를 통해 Crops를 융합하여 3D 제안을 예측하는 다중 모달 융합 RPN을 구현한다.
BEV에서 샘플링된 축정렬된 3D 앵커를 사용하고 재현율 중심의 학습과 2D BEV IoU 기반 앵커 가지치기를 적용한다.
4-코너 박스 인코딩에 상단 및 하단 높이 오프셋을 더하고 명시적 방향 벡터(cosθ, sinθ) 회귀를 포함한 2단계 탐지기를 사용하여 방향 불확실성을 해결한다.
박스 매개변수에 대해 Smooth L1, 객체성/분류에 대해 교차 엔트로피 손실 등 다중 작업 손실을 사용하고 제안에 대해 2D BEV NMS로 RPN과 탐지기를 엔드-투-엔드로 공동 학습시킨다.

실험 결과

연구 질문

RQ1고해상도 BEV LiDAR 특징과 RGB 이미지 특징의 다중 모달 융합이 자율주행에서 3D 제안 재현율과 최종 3D 탐지를 향상시킬 수 있는가?
RQ2고해상도 피처 추출기와 다중 뷰 RPN의 결합이 도로 씬의 작은 물체에 대한 위치 추정과 방향 추정에 더 나은 성능을 가능하게 하는가?
RQ34-코너 3D 박스 인코딩과 명시적 방향 회귀의 결합이 3D 탐지 성능과 방향 정확도에 미치는 영향은 무엇인가?
RQ4표준 하드웨어에서 작은 메모리 점유로도 AVOD 접근 방식이 실시간 추론을 수행하면서 최첨단 정확도를 유지할 수 있는가?

주요 결과

피처 피라미드 융합 RPN은 프레임당 10개의 제안만으로 자동차에 대해 3D 재현율 86%를 달성한다.
AVOD는 자동차, 보행자, 자전거 클래스에 걸쳐 3D 제안 재현율에서 3DOP 및 Mono3D를 능가한다.
KITTI 검증에서 피처 피라미드가 적용된 AVOD는 자동차에 대해 최첨단 3D AP 및 BEV AP를 제공하고, 고해상도 추출기로부터의 상당한 이득으로 보행자에서 강력한 결과를 보여준다.
KITTI 테스트 세트에서 AVOD(Feature Pyramid)는 자동차와 보행자에 대해 선도적인 3D AP 및 BEV AP를 달성하고 자전거에 대해서도 경쟁력 있는 결과를 보이며 TITAN Xp에서 프레임당 0.1초의 우수한 런타임을 보여준다.
제안된 4-코너 플러스 상단/하단 높이 인코딩과 명시적 방향 회귀는 이전 인코딩에 비해 방향 정확도를 개선하고 모호성을 줄인다.
고해상도 피처 추출기가 작은 클래스(보행자, 자전거)에 대한 성능을 크게 향상시키며 연산 및 메모리 증가를 관리 가능한 수준으로 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.