QUICK REVIEW

[논문 리뷰] Spatial As Deep: Spatial CNN for Traffic Scene Understanding

Xingang Pan, Zhan, Xiaohang|arXiv (Cornell University)|2017. 12. 17.

Autonomous Vehicle Technology and Safety인용 수 230

한 줄 요약

이 논문은 Spatial CNN(SCNN)을 소개합니다. 층별 공간 메시지 전달 방식으로 특징 맵 내 행과 열을 가로질러 정보를 전파하여 교통 차선과 기둥과 같은 길고 모양적인 구조를 더 잘 포착하고, 기존 CNN 및 RNN/CRF 기반 방법에 비해 차선 검출 및 의미 분할을 향상시킵니다.

ABSTRACT

Convolutional neural networks (CNNs) are usually built by stacking convolutional operations layer-by-layer. Although CNN has shown strong capability to extract semantics from raw pixels, its capacity to capture spatial relationships of pixels across rows and columns of an image is not fully explored. These relationships are important to learn semantic objects with strong shape priors but weak appearance coherences, such as traffic lanes, which are often occluded or not even painted on the road surface as shown in Fig. 1 (a). In this paper, we propose Spatial CNN (SCNN), which generalizes traditional deep layer-by-layer convolutions to slice-byslice convolutions within feature maps, thus enabling message passings between pixels across rows and columns in a layer. Such SCNN is particular suitable for long continuous shape structure or large objects, with strong spatial relationship but less appearance clues, such as traffic lanes, poles, and wall. We apply SCNN on a newly released very challenging traffic lane detection dataset and Cityscapse dataset. The results show that SCNN could learn the spatial relationship for structure output and significantly improves the performance. We show that SCNN outperforms the recurrent neural network (RNN) based ReNet and MRF+CNN (MRFNet) in the lane detection dataset by 8.7% and 4.6% respectively. Moreover, our SCNN won the 1st place on the TuSimple Benchmark Lane Detection Challenge, with an accuracy of 96.53%.

연구 동기 및 목표

교통 장면에서 길고 연속적인 구조가 강한 모양 priors를 가지지만 appearance 단서가 약한 경우 공간 관계 모델링의 개선 필요성을 제시한다.
피처 맵 내에서 슬라이스별 메시지 전달을 가능하게 하는 공간적으로 방향성 있는 CNN 확장을 제안한다.
SCNN이 CNN, ReNet, MRF/CRF 베이스라인 및 깊은 잔차 네트워크에 비해 도전적인 교통 데이터 세트에서 차선 검출 및 의미 분할을 개선함을 보인다.

제안 방법

피처 맵 내에서 슬라이스별 컨볼루션을 수행하도록 깊은 CNN을 일반화하여 방향성이고 순차적인 공간 메시지 전달을 가능하게 한다.
슬라이스 간 커널 가중치를 공유하고 레이어를 가로질러 잔류 메시지를 전파하는 per-slice 컨볼루션으로 SCNN 순전파를 정의한다(논문에 제시된 방정식 참조).
백본 네트워크의 최상위 은닉층 뒤에 네 방향 SCNN 모듈(Down, Up, Right, Left)을 추가적으로 구현한다.
Lane Detection 및 Cityscapes 의미 분할 작업에 대해 수정된 LargeFOV/ResNet 백본을 사용하여 SGD로 엔드투엔드 학습한다.
고 반응 행에서 cubic-spline 차선 재구성에 이은 probmaps를 통해 차선 존재 여부를 평가한다.
SCNN을 ReNet, DenseCRF, MRFNet 및 ResNet 베이스라인과 비교하고, 밀집 MRF/CRF에 비해 효율성상의 이점을 시연한다.

실험 결과

연구 질문

RQ1SCNN이 행과 열을 따라 공간 정보를 효과적으로 전파하여 가려지거나 약하게 보이는 차선 표식 및 구조화된 객체를 복구할 수 있는가?
RQ2SCNN이 차선 검출 및 도시 공간 의미 분할에서 RNN 기반, MRF/CRF 기반 및 더 깊은 CNN 베이스라인보다 성능이 우수한가?
RQ3Traffic 장면의 구조화된 객체에 대해 출력층보다 상위 은닉층에 SCNN을 적용하는 것이 더 이로운가?
RQ4핵 커널 폭, 방향 구성, 순차적 대 병렬 메시지 전달이 SCNN 성능에 미치는 영향은 무엇인가?

주요 결과

다방향 전파를 갖춘 SCNN은 여러 IoU 임계값에서 baseline, ReNet, MRFNet 대비 차선 검출 F1 점수를 대폭 향상시킨다.
SCNN의 커널 폭이 커질수록(최대 w=9) F1이 증가하며, IoU 임계값 0.3 및 0.5에서 baseline 대비 주목할 만한 이득이 나타난다.
SCNN을 최상위 은닉층에 적용하는 것이 출력층에 적용하는 것보다 더 나은 결과를 준다.
SCNN에서 순차적(병렬이 아닌) 메시지 전달은 명확한 정확도 이점을 제공하며, 여러 단계에 걸친 정보 확산이 구조 추정에 도움이 됨을 시사한다.
SCNN이 DenseCRF, ReNet 및 많은 경우 ResNet-50/101 베이스라인보다 차선 검출 지표에서 우수하며 Cityscapes에서도 LargeFOV 또는 ResNet-101 백본에 추가 시 다수의 클래스 및 전체 mIoU를 향상시킨다.
SCNN은 Dense CRF 및 LSTM 기반 대비 계산 효율성 이점을 보이며, 긴/가느다란 구조물 및 큰 객체에 유익한 확산 효과를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.