QUICK REVIEW

[논문 리뷰] FisheyeMODNet: Moving Object Detection on Surround-view Cameras for Autonomous Driving

Marie Yahiaoui|arXiv (Cornell University)|2019. 08. 30.

Advanced Neural Network Applications참고 문헌 17인용 수 33

한 줄 요약

이 논문은 자율주행 차량의 피시아 뷰 이미지에서 이동 물체 검출(MOD)을 위한 경량 두 개의 스트림으로 구성된 CNN인 FisheyeMODNet을 제안한다. 순차적인 피시아 프레임에 대해 엔드 투 엔드 학습을 통해 자가 운행과 물체 운동을 암묵적으로 구분하며, 1 TOPS 임베디드 시스템에서 15 fps로 40% IoU와 69.5% mIoU 성능을 달성한다. 또한 5,139개의 주석이 달린 프레임을 포함한 첫 번째 공개 피시아 MOD 데이터셋을 제공한다.

ABSTRACT

Moving Object Detection (MOD) is an important task for achieving robust autonomous driving. An autonomous vehicle has to estimate collision risk with other interacting objects in the environment and calculate an optional trajectory. Collision risk is typically higher for moving objects than static ones due to the need to estimate the future states and poses of the objects for decision making. This is particularly important for near-range objects around the vehicle which are typically detected by a fisheye surroundview system that captures a 360± view of the scene. In this work, we propose a CNN architecture for moving object detection using fisheye images that were captured in autonomous driving environment. As motion geometry is highly non-linear and unique for fisheye cameras, we will make an improved version of the current dataset public to encourage further research. To target embedded deployment, we design a lightweight encoder sharing weights across sequential images. The proposed network runs at 15 fps using Jetston Nvidia TX2 embedded GPU at accuracy of 40% IoU and 69.5% mIoU.

연구 동기 및 목표

강한 비선형 왜곡과 복잡한 운동 기하학을 가지는 피시아 카메라 이미지에서 이동 물체 검출의 과제를 해결하기 위해.
자동차 임베디드 플랫폼에 배포 가능한 경량 실시간 딥 러닝 모델을 개발하기 위해.
피시아 뷰 이미지에서 이동 물체에 대한 이진 마스크를 포함한 첫 번째 공개 자동차 데이터셋을 구축하고 공개하기 위해.
피시아 데이터에서 MOD 정확도를 향상시키기 위한 효과적인 학습 및 데이터 증강 전략을 탐구하기 위해.
피시아 환경에서 정적 및 이동 픽셀 간의 클래스 불균형 문제를 가중치가 부여된 교차 엔트로피 손실을 통해 해결하기 위해.

제안 방법

모델은 두 개의 시간적으로 연속된 피시아 이미지를 처리하여 운동 및 의미 정보를 공동으로 인코딩하는 두 개의 스트림으로 구성된 인코더-디코더 아키텍처를 사용한다.
계산 비용을 줄이면서도 정확도를 유지하기 위해 포인트와룹 컨벌루션과 채널 셔플링을 활용한 셔플넷 기반의 인코더를 사용한다.
이미지의 픽셀 단위 이진 세그먼테이션 마스크를 생성하기 위해 특징 맵을 세 단계의 디컨벌루션 레이어를 통해 업샘플링한다.
정적 픽셀이 이동 픽셀보다 훨씬 많기 때문에 심각한 클래스 불균형 문제를 해결하기 위해 가중치가 부여된 교차 엔트로피 손실을 적용한다.
정확도 저하를 최소화하면서 모델 크기와 추론 비용을 줄이기 위해 두 스트림 인코더 간에 가중치 공유를 구현한다.
반자동 주석 파이프라인은 LiDAR 포인트 클라우드와 카메라 캘리브레이션을 활용하여 물체 바운딩 박스에서 정답 이진 마스크를 생성한다.

실험 결과

연구 질문

RQ1직선형 이미지에서 학습된 딥 러닝 모델이 극심한 왜곡과 비선형 운동 기하학을 가지는 피시아 카메라 입력으로 일반화될 수 있는가?
RQ2비디오 프레임 간의 순차적 피시아 이미지에 대해 엔드 투 엔드 학습을 수행할 경우, 옵티컬 플로우 기반 방법과 비교해 운동 세그먼테이션 성능이 얼마나 우수한가?
RQ3특히 정적 및 이동 물체 시나리오의 균형을 맞춘 데이터 증강 전략이 피시아 데이터에서의 MOD 정확도에 어떤 영향을 미치는가?
RQ4두 스트림 인코더 간의 가중치 공유가 임베디드 플랫폼에서 성능 저하 없이 모델 복잡도를 얼마나 줄일 수 있는가?
RQ51 TOPS 자동차 임베디드 시스템에서 제안된 방법이 실시간 추론 속도와 정확도 측면에서 얼마나 잘 작동하는가?

주요 결과

직선형 이미지에서 사전 학습된 모델이 피시아 이미지에서 10% IoU에 그치며, 피시아 기하학에 대한 일반화 능력이 떨어지는 것으로 나타났다.
새로운 데이터셋의 3,638개의 피시아 프레임에서 학습한 결과 IoU가 39.8%로 향상되어 도메인 특화 데이터가 성능 향상에 필수적임을 입증했다.
정적 및 이동 물체 시나리오의 균형을 맞춘 데이터 증강 전략을 적용함으로써 mIoU는 70%로, IoU는 42%로 상승하여 클래스 균형 조절이 탐지 정확도 향상에 기여함을 시사했다.
두 스트림 인코더 간의 가중치 공유로 모델 크기를 줄였고, IoU는 0.2% 감소에 그쳐 임베디드 시스템에 효율적인 배포가 가능했다.
최종 모델은 1 TOPS 자동차 임베디드 시스템에서 15 fps로 실행되어 자율주행의 실시간 요구 조건을 충족시켰다.
주요 실패 원인은 미세한 움직임으로 인한 정적 보행자에 대한 가짜 양성 결과로, 실제 데이터에서 운동 임계값을 정의하는 데 어려움이 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.