Skip to main content
QUICK REVIEW

[논문 리뷰] Real-time Joint Object Detection and Semantic Segmentation Network for Automated Driving

Ganesh Sistu, Isabelle Leang|arXiv (Cornell University)|2019. 01. 12.
Advanced Neural Network Applications참고 문헌 10인용 수 32
한 줄 요약

이 논문은 공유된 경량 ResNet10 유사 인코더를 사용하여 객체 검출과 의미 분할을 동시에 수행하는 실시간 병렬 딥러닝 아키텍처를 제안한다. 검출에는 YOLOv2 스타일, 분할에는 FCN8 스타일의 디코더를 활용하며, 저전력 임베디드 시스템에서 30 fps를 달성하면서도 KITTI, Cityscapes 및 비공개 피시아이 카메라 데이터셋에서 별도의 네트워크와 비교해 유사한 정확도를 유지한다.

ABSTRACT

Convolutional Neural Networks (CNN) are successfully used for various visual perception tasks including bounding box object detection, semantic segmentation, optical flow, depth estimation and visual SLAM. Generally these tasks are independently explored and modeled. In this paper, we present a joint multi-task network design for learning object detection and semantic segmentation simultaneously. The main motivation is to achieve real-time performance on a low power embedded SOC by sharing of encoder for both the tasks. We construct an efficient architecture using a small ResNet10 like encoder which is shared for both decoders. Object detection uses YOLO v2 like decoder and semantic segmentation uses FCN8 like decoder. We evaluate the proposed network in two public datasets (KITTI, Cityscapes) and in our private fisheye camera dataset, and demonstrate that joint network provides the same accuracy as that of separate networks. We further optimize the network to achieve 30 fps for 1280x384 resolution image.

연구 동기 및 목표

  • 자율 주행 시스템에서 실시간 의미 분할 및 객체 검출의 계산 병목 현상을 해결하기 위해.
  • 공유된 인코더를 사용해 검출 및 분할 작업을 함께 학습함으로써 효율성과 확장성을 향상시키기 위해.
  • 정확도를 희생시키지 않고 저전력 임베디드 시스템에서 실시간 추론(30 fps)을 달성하기 위해.
  • 가중치 손실 균형을 사용한 다중 작업 학습이 두 작업 모두에서 경쟁적인 성능을 가능하게 함을 보여주기 위해.
  • 공개 벤치마크와 비공개 피시아이 카메라 데이터셋을 포함한 다양한 데이터셋에서 아키텍처의 유효성을 검증하기 위해.

제안 방법

  • 검출 및 분할 작업 모두에 사용되는 작은 ResNet10 유사 아키텍처 기반의 공유 인코더를 사용한다.
  • 검출 헤드는 경계 박스 예측을 위한 앵커 기반의 YOLOv2 영감을 받은 디코더를 사용한다.
  • 분할 헤드는 스킵 연결을 활용한 밀도 있는 픽셀 수준 예측을 위한 FCN8 스타일의 디코더를 사용한다.
  • 다중 작업 학습 프레임워크는 손실 척도를 균형 잡기 위해 가중치 합( w_seg = 1, 10, 100)을 사용해 분할 및 검출 손실을 통합한다.
  • 모델 최적화에는 채널 수 줄이기, 최소한의 스킵 연결, 수평선 이하 영역만 분할하도록 제한하는 방법을 포함하여 메모리 및 계산량을 감소시킨다.
  • 네트워크는 ADAM 옵timizer를 사용하며, 분할에는 카테고리별 교차 엔트로피 손실, 검출에는 평균 제곱 오차 손실을 각각 적용한다.

실험 결과

연구 질문

  • RQ1공유 인코더 아키텍처가 별도의 네트워크와 유사한 정확도를 달성할 수 있는가?
  • RQ2가중치 손실 균형을 사용한 다중 작업 학습이 두 작업의 성능에 어떤 영향을 미치는가?
  • RQ3공유 네트워크가 정확도를 희생시키지 않고 저전력 임베디드 SoC에서 실시간 추론(30 fps)을 달성할 수 있는가?
  • RQ4분할 디코더를 이미지 하단부에 국한시키는 것이 정확도 손실 없이 효율성을 향상시킬 수 있는가?
  • RQ5다양한 데이터셋, 특히 실제 도로 환경 및 피시아이 카메라 데이터에 대해 공유 네트워크의 일반화 능력은 어떠한가?

주요 결과

  • 다중 작업 학습 네트워크는 KITTI 분할에서 평균 IoU 0.8172, 검출에서 mAP 0.6112를 달성했으며, 단일 작업 기반 베이스라인과 유사하거나 略적으로 떨어지지만, 상당한 효율성 향상을 보였다.
  • Cityscapes에서 MTL 100 설정은 분할에 대해 평균 IoU 0.5555, 검출에 대해 mAP 0.2355를 기록했으며, 가중치 손실로 인해 분할 성능 향상이 확인되었다.
  • 비공개 피시아이 데이터셋에서 MTL 100 설정은 분할에 대해 평균 IoU 0.7527, 검출에 대해 mAP 0.459를 달성했으며, 비표준 카메라 입력에 대해서도 뛰어난 강인성을 입증했다.
  • 최적화된 네트워크는 저전력 임베디드 시스템에서 1280x384 해상도에서 30 fps 추론을 달성하여 자율 주행의 실시간 요구 조건을 충족했다.
  • 제거 실험을 통해 가중치 손실 균형(w_seg = 100)이 특히 손실 척도가 높은 데이터셋에서 분할 성능을 크게 향상시켰다는 것이 확인되었다.
  • 공유 인코더 덕분에 계산 및 메모리 오버헤드가 감소하여 자동차 플랫폼의 자원 제약 조건에서도 배포가 가능해졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.