QUICK REVIEW

[논문 리뷰] Orthographic Feature Transform for Monocular 3D Object Detection

Thomas Roddick, Alex Kendall|arXiv (Cornell University)|2018. 11. 20.

Advanced Neural Network Applications참고 문헌 34인용 수 81

한 줄 요약

Orthographic Feature Transform(OFT)를 도입하여 이미지 기반 특징을 직교식 버드아이 뷰로 매핑하고 단안 3D 객체 탐지를 위한 3D 추론을 가능하게 하며 KITTI에서 단안 기반 최첨단 결과를 달성한다.

ABSTRACT

3D object detection from monocular images has proven to be an enormously challenging task, with the performance of leading systems not yet achieving even 10\% of that of LiDAR-based counterparts. One explanation for this performance gap is that existing systems are entirely at the mercy of the perspective image-based representation, in which the appearance and scale of objects varies drastically with depth and meaningful distances are difficult to infer. In this work we argue that the ability to reason about the world in 3D is an essential element of the 3D object detection task. To this end, we introduce the orthographic feature transform, which enables us to escape the image domain by mapping image-based features into an orthographic 3D space. This allows us to reason holistically about the spatial configuration of the scene in a domain where scale is consistent and distances between objects are meaningful. We apply this transformation as part of an end-to-end deep learning architecture and achieve state-of-the-art performance on the KITTI 3D object benchmark.\footnote{We will release full source code and pretrained models upon acceptance of this manuscript for publication.

연구 동기 및 목표

단안 3D 객체 탐지를 고무하고 LiDAR 기반 방법과의 격차를 줄인다.
이미지 특징을 BEV 공간으로 매핑하기 위한 미분가능한 Orthographic Feature Transform(OFT)을 제안한다.
BEV 공간에서 3D 구조를 추론하는 엔드투엔드 CNN 아키텍처를 개발한다.
단안 입력으로 3D 경계상자 및 관련 속성(위치, 크기, 방향)을 예측한다.
단안 KITTI에서 최첨단 성능을 시연하고 3D 추론의 이점을 분석한다.

제안 방법

투영된 보셀 영역 위에서 이미지 특징 f(u,v)를 모아 보셀 기반 3D 특징 맵 g(x,y,z)를 정의한다(식 1).
높이에 따라 g를 축소하여 학습된 가중치 W(y)를 이용해 직교 BEV 특징 맵 h(x,z)를 얻는다(식 3).
다수의 영역에서 빠른 평균 풀링을 위한 적분 이미지를 사용하여 특징을 효율적으로 풀링한다(식 5).
3D 장면 구조를 추론하기 위해 BEV 특징을 탑다운 네트워크(ResNet 유사)로 처리한다.
위치별 출력 예측: 신뢰도 S, 위치 오프셋 Δpos, 치수 오프셋 Δdim, 그리고 각도 벡터 Δang(식 6–9).
S, Δpos, Δdim, Δang에 대해 L1 손실로 학습하고 BEV 신뢰도 맵에서 NMS를 사용하여 최종 3D 박스를 생성한다.

실험 결과

연구 질문

RQ1이미지 공간 특징에서 직교 BEV 공간으로의 미분가능한 매핑이 단일 이미지로부터 견고한 3D 추론을 가능하게 할 수 있는가?
RQ2BEV 공간에서의 추론이 이미지 공간 방식과 비교하여 KITTI에서 단안 3D 객체 탐지 성능을 향상시키는가?
RQ3OFT 기반 BEV 표현이 먼 거리의 객체나 가려진 객체의 탐지에 어떤 영향을 미치는가?
RQ4상향식 BEV 네트워크의 깊이가 3D 탐지 성능에 어떤 영향을 미치는가?

주요 결과

방법	모달리티	AP3D 쉽다	AP3D 보통	AP3D 어렵다	APBEV 쉽다	APBEV 보통	APBEV 어렵다
3D-SSMFCNN	Mono	2.28	2.39	1.52	3.66	3.19	3.45
OFT-Net (Ours)	Mono	2.50	3.28	2.27	9.50	7.99	7.51
3DOP	Stereo	6.55	5.07	4.10	12.63	9.49	7.59
Mono3D	Mono	2.53	2.31	2.31	5.22	5.19	4.13
OFT-Net (Ours)	Mono	4.07	3.27	3.29	11.06	8.79	8.91

OFT는 명시적 깊이 감독 없이 이미지 특징을 BEV 표현으로 매핑하여 엔드투엔드 학습을 가능하게 한다.
상향식 BEV 추론은 기본선 대비 KITTI에서 단안 3D 탐지 성능을 크게 향상시킨다.
OFT-Net은 KITTI에서 단안 방법 중 최첨단 성과를 달성하고 Mono3D를 능가하며 BEV 지표에서 스테레오 결과에 근접한다.
이 접근법은 먼 거리의 물체에서도 강한 성능을 유지하며 일부 경쟁 단안 방법보다 감쇄가 느리다.
변형 결과는 더 깊은 BEV 추론(상향식 네트워크)이 RoI 유사 풀링 베이스라인 대비 상당한 이득을 준다.
BEV 신뢰도 맵이 객체 중심을 효과적으로 국지화하여 BEV 공간에서 간단한 NMS를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.