QUICK REVIEW

[논문 리뷰] SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud

BoRui Wu, Alvin Wan|arXiv (Cornell University)|2017. 10. 19.

Advanced Neural Network Applications참고 문헌 16인용 수 56

한 줄 요약

SqueezeSeg는 구면 프로젝션 LiDAR 데이터에 대한 엔드-투-엔드 CNN 파이프라인을 제시하고, 순환 CRF 정제를 통해 실시간 도로 객체 세분화를 달성하며 KITTI에서 높은 정확도와 빠른 프레임 속도를 실현하고, GTA-V 합성 데이터의 추가 이점도 있음.

ABSTRACT

In this paper, we address semantic segmentation of road-objects from 3D LiDAR point clouds. In particular, we wish to detect and categorize instances of interest, such as cars, pedestrians and cyclists. We formulate this problem as a point- wise classification problem, and propose an end-to-end pipeline called SqueezeSeg based on convolutional neural networks (CNN): the CNN takes a transformed LiDAR point cloud as input and directly outputs a point-wise label map, which is then refined by a conditional random field (CRF) implemented as a recurrent layer. Instance-level labels are then obtained by conventional clustering algorithms. Our CNN model is trained on LiDAR point clouds from the KITTI dataset, and our point-wise segmentation labels are derived from 3D bounding boxes from KITTI. To obtain extra training data, we built a LiDAR simulator into Grand Theft Auto V (GTA-V), a popular video game, to synthesize large amounts of realistic training data. Our experiments show that SqueezeSeg achieves high accuracy with astonishingly fast and stable runtime (8.7 ms per frame), highly desirable for autonomous driving applications. Furthermore, additionally training on synthesized data boosts validation accuracy on real-world data. Our source code and synthesized data will be open-sourced.

연구 동기 및 목표

3D LiDAR 포인트 클라우드에서 도로 객체의 점별 의미 분할을 위한 엔드-투-엔드 CNN 기반 파이프라인을 개발한다.
SqueezeNet에서 영감을 받은 경량 아키텍처를 도입하여 메모리와 계산을 줄인다.
레이블 맵을 정제하기 위해 순환 계층으로서의 CRF를 도입하여 분할 정확도를 향상시킨다.
GTA-V의 합성 데이터를 활용해 실제 KITTI 데이터를 보강하고 성능을 개선한다.

제안 방법

3D LiDAR 포인트를 밀집한 2D 구면 격자에 투영해 CNN의 입력으로 사용한다.
fire 모듈과 fireDeconv를 갖춘 SqueezeNet-영감 아키텍처를 적용해 실시간 저매개변수 분할을 달성한다.
최종 소프트맥스 층으로 각 포인트의 레이블 확률을 생성해 포인트별 레이블 맵을 만든다.
확률적 라벨 맵을 순환형 RNN으로 구현된 평균장 CRF로 정제하여 엔드-투-엔드 학습이 가능하게 한다.
인스턴스 수준의 세분화를 위해 라벨링된 포인트에 대해 군집화(DBSCAN 등)을 선택적으로 적용한다.
KITTI에서 학습 및 평가하고, GTA-V 합성 LiDAR 데이터로 학습 데이터를 보강해 정확도를 향상시킨다.

실험 결과

연구 질문

RQ1구면에 투영된 LiDAR 데이터에서 작동하는 경량 CNN이 도로 객체의 정확하고 실시간 의미 분할을 달성할 수 있는가?
RQ2순환 CRF를 통합하면 경계 정밀도와 LiDAR 기반 세분화의 IoU가 향상되는가?
RQ3GTA-V의 합성 데이터가 KITTI 기반 성능에 미치는 영향은 무엇인가?
RQ43D LiDAR 세분화를 위한 CNN-CRF 파이프라인의 엔드-투-엔드 학습이 가능한가?

주요 결과

Class-level P (with CRF)	Class-level R (with CRF)	Class-level IoU (with CRF)	Class-level P (without CRF)	Class-level R (without CRF)	Class-level IoU (without CRF)	Instance-level P (with CRF)	Instance-level R (with CRF)	Instance-level IoU (with CRF)	Instance-level P (without CRF)	Instance-level R (without CRF)	Instance-level IoU (without CRF)
car	66.7	95.4	64.6	62.7	95.5	60.0	91.3	56.7	63.4	90.7	59.5
pedestrian	45.2	29.7	21.8	52.9	28.6	22.8	43.5	28.6	20.8	28.6	20.8
cyclist	35.7	45.8	25.1	35.2	51.1	26.4	30.1	43.7	21.7	30.1	21.7

CRF를 도입한 SqueezeSeg가 CRF 미사용 대비 자동차 클래스의 IoU를 높인다(클래스 수준 64.6 대 60.9, 자동차의 CRF).
CRF가 정밀도를 향상시켜 인스턴스 수준 자동차 IoU 및 P/R 지표를 상승시킨다(자동차의 CRF: IoU 59.5; CRF 미사용: IoU 56.7).
자동차 클래스는 CRF 여부에 관계없이 두 경우 모두 재현율이 높아(>90%) 오탐이 낮음을 시사한다.
보행자 및 자전거 이용자 성능은 인스턴스 수와 물체 크기 차이로 낮고 CRF의 이점은 혼합적이다.
실시간 런타임: CRF 없는 SqueezeSeg는 프레임당 8.7 ms; CRF 포함 시 13.5 ms TITAN X에서; 인스턴스 클러스터링(DBSCAN)은 추가 비용을 초래한다(평균 27.3 ms).
GTA 합성 데이터를 KITTI와 함께 학습하면 KITTI 단독보다 자동차 세분화에서 IoU가 추가로 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.