QUICK REVIEW

[논문 리뷰] Efficient Bird Eye View Proposals for 3D Siamese Tracking

Jesús Zarzar, Silvio Giancola|arXiv (Cornell University)|2019. 03. 25.

Video Surveillance and Tracking Methods참고 문헌 31인용 수 31

한 줄 요약

이 논문은 LIDAR 포인트 클라우드에서 검색 공간 복잡도를 줄이기 위해 영역 제안망(RPN)을 통해 생성된 Bird's Eye View(BEV) 제안을 사용하는 효율적인 3D 차량 추적 프레임워크를 제안한다. BEV와 3D 특징에서 형상 복구 정규화를 함께 적용한 3D Siamese 네트워크를 공동으로 훈련시킴으로써, 단지 16개의 후보자만을 사용함에도 불구하고 이전 작업 대비 12% 높은 성공률과 18% 높은 정밀도를 달성한다.

ABSTRACT

Tracking vehicles in LIDAR point clouds is a challenging task due to the sparsity of the data and the dense search space. The lack of structure in point clouds impedes the use of convolution filters usually employed in 2D object tracking. In addition, structuring point clouds is cumbersome and implies losing fine-grained information. As a result, generating proposals in 3D space is expensive and inefficient. In this paper, we leverage the dense and structured Bird Eye View (BEV) representation of LIDAR point clouds to efficiently search for objects of interest. We use an efficient Region Proposal Network and generate a small number of object proposals in 3D. Successively, we refine our selection of 3D object candidates by exploiting the similarity capability of a 3D Siamese network. We regularize the latter 3D Siamese network for shape completion to enhance its discrimination capability. Our method attempts to solve both for an efficient search space in the BEV space and a meaningful selection using 3D LIDAR point cloud. We show that the Region Proposal in the BEV outperforms Bayesian methods such as Kalman and Particle Filters in providing proposal by a significant margin and that such candidates are suitable for the 3D Siamese network. By training our method end-to-end, we outperform the previous baseline in vehicle tracking by 12% / 18% in Success and Precision when using only 16 candidates.

연구 동기 및 목표

희소 LIDAR 포인트 클라우드에서 차량 추적을 위한 전수 3D 검색의 비효율성과 높은 계산 비용을 해결한다.
칼만 필터나 입자 필터와 같은 전통적 필터가 3D 추적을 위한 신뢰할 수 있는 제안을 생성하는 데에 한계를 극복한다.
구조적이고 조밀한 BEV 표현을 활용하여 빠르고 효과적인 영역 제안 생성을 가능하게 한다.
2D BEV 제안과 3D Siamese 특징 학습, 형상 복구 정규화를 결합하여 식별성과 추적 정확도를 향상시킨다.
이중 브랜치 Siamese 네트워크의 엔드 투 엔드 훈련을 가능하게 하여 제안 생성과 유사도 측정 기준을 함께 학습한다.

제안 방법

원시 LIDAR 포인트 클라우드를 공간적 구조를 활용하고 희소성을 줄이기 위해 조밀한 2D Bird's Eye View(BEV) 표현으로 변환한다.
BEV 특징 맵에 영역 제안망(RPN)을 도입하여 효율적으로 소수의 후보 3D 경계 상자 집합을 생성한다.
2D BEV와 3D 포인트 클라우드 특징을 모두 처리하는 이중 브랜치 Siamese 네트워크를 훈련시켜 추적을 위한 유사도 측정 기준을 학습한다.
3D Siamese 브랜치에 형상 복구 손실을 정규화하여 특징의 식별성과 부분적 포인트 클라우드에 대한 강건성을 향상시킨다.
RPN과 Siamese 네트워크의 엔드 투 엔드 훈련을 수행하여 제안 생성과 추적 성능를 함께 최적화한다.
3D Siamese 네트워크를 활용해 RPN이 생성한 제안들 중 유사도 점수에 기반해 가장 우수한 후보를 정밀화하고 선택한다.

실험 결과

연구 질문

RQ12D Bird's Eye View(BEV) 공간에서의 영역 제안망(RPN)이 LIDAR 데이터에서의 3D 차량 추적을 위한 칼만 필터나 입자 필터보다 더 효과적이고 효율적인 제안을 생성할 수 있는가?
RQ22D BEV 제안과 3D Siamese 특징 학습을 조합할 경우, 전수 검색이나 필터 기반 방법에 비해 추적 정확도와 강건성은 어느 정도 향상되는가?
RQ33D Siamese 네트워크에서의 형상 복구 정규화는 희소하거나 부분적으로 관측된 포인트 클라우드에서 식별 능력과 추적 성능에 어떤 영향을 미치는가?
RQ4최소한의 제안 후보 수(예: 16개)로도 제안된 방법이 최신 기술 수준의 성능을 달성하면서 실시간 가능성을 유지할 수 있는가?
RQ52D BEV 표현은 어떤 기여를 하여 빠르고 조밀한 검색을 가능하게 하면서도 정확한 추적을 위한 충분한 3D 기하 정보를 유지하는가?

주요 결과

BEV 공간의 RPN은 칼만 필터나 입자 필터보다 제안 품질에서 뛰어나며, 단지 16개의 후보자만을 사용해도 성공률과 정밀도 점수가 유의미하게 높아졌다.
제안된 방법은 이전 최신 기술 수준의 기준 대비 12% 높은 성공률과 18% 높은 정밀도를 달성했다. 이는 후보자 수가 16개에 불과한 상황에서도 성립한다.
BEV RPN 제안과 3D Siamese 특징 학습의 조합은 차량, 자전거, 보행자 등 모든 클래스에서 정확한 추적을 가능하게 하며 일관된 성능 향상을 이룬다.
3D Siamese 네트워크에서의 형상 복구 정규화는 특히 부분적으로 관측되거나 희소한 포인트 클라우드에서 특징의 식별성을 향상시킨다.
엔드 투 엔드 훈련 중에 방법이 빠르게 수렴함을 확인하여, 사전 훈련된 ImageNet 및 KITTI 특징이 강력한 초기화를 제공하고 공동 최적화가 최소한으로 필요함을 시사한다.
각도 회귀는 성능 향상에 기여하지 않았으며, 2.5도의 앵커 해상도가 이미 충분했고, 추가로 회귀를 도입함으로써 복잡도만 증가시킬 뿐 유의미한 이득이 없었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.