Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Driving Car Steering Angle Prediction Based on Image Recognition

Shuyang Du, Haoli Guo|arXiv (Cornell University)|2019. 12. 11.
Autonomous Vehicle Technology and Safety참고 문헌 20인용 수 83
한 줄 요약

본 논문은 Udacity의 자율주행 차 이미지에서 조향 각도를 예측하기 위해 3D CNN+LSTM 아키텍처와 ResNet50 기반의 전이 학습 모델을 비교하고, RMSE 결과와 모델 인사이트를 보고한다.

ABSTRACT

Self-driving vehicles have expanded dramatically over the last few years. Udacity has release a dataset containing, among other data, a set of images with the steering angle captured during driving. The Udacity challenge aimed to predict steering angle based on only the provided images. We explore two different models to perform high quality prediction of steering angles based on images using different deep learning techniques including Transfer Learning, 3D CNN, LSTM and ResNet. If the Udacity challenge was still ongoing, both of our models would have placed in the top ten of all entries.

연구 동기 및 목표

  • 드라이빙 이미지에서 엔드투엔드 조향 각도 예측의 동기를 제시하고 손으로 만든 규칙을 줄인다.
  • 3D 컨볼루션과 LSTM을 통해 시계열 정보를 활용한 조향 각도 예측 탐색.
  • Udacity 데이터셋에서 사전 학습된 모델(ResNet50)을 활용한 전이 학습 평가.
  • 데이터 증가(augmentation) 전략과 그 모델 성능에 대한 영향 평가.
  • NVIDIA의 벤치마크와의 비교 및 생산 시스템에 대한 시사점 논의.

제안 방법

  • 시퀀스 5프레임의 5개의 시퀀스(5x5x120x320x3, 543,131 파라미터)를 사용하여 시계열 정보를 포착하는 잔차 연결이 있는 3D 컨볼루션 모델 개발.
  • ImageNet에서 사전 학습된 ResNet50을 사용한 전이 학습 모델 개발; 처음 약 45개의 층을 고정하고 조향 각도(출력 1개)를 예측하기 위한 완전 연결층을 붙임.
  • 밝기, 그림자, 이동, 회전을 포함한 데이터 증강 적용; 입력을 [-1,1]로 정규화; 네트워크와의 호환성을 위해 크롭 크기 조정.
  • 평균 제곱 오차 손실과 학습률 감소가 있는 Adam 옵티마이저로 학습; 평가 지표로 RMSE 보고.
  • 시각화된 주의도(saliency maps)를 통해 모델의 초점 해석 및 3D-LSTM 모델의 시간적 특성 활용에 대해 논의.

실험 결과

연구 질문

  • RQ13D CNN + LSTM 아키텍처가 이미지 시퀀스로부터 시간 정보를 활용해 조향 각도를 예측할 수 있는가?
  • RQ2사전 학습된 ResNet50으로의 전이 학습이 Udacity 데이터셋에서 경쟁력 있는 조향 각도 RMSE를 달성하는가?
  • RQ3다른 데이터 증강 수준이 모델 성능과 일반화에 어떤 영향을 미치는가?
  • RQ4제안된 모델들이 NVIDIA 벤치마크 및 Udacity 챌린지의 상위 항목들과 어떻게 비교되는가?

주요 결과

  • 3D CNN + LSTM 모델은 테스트 세트에서 RMSE 0.1123를 달성하여 리더보드의 약 10위에 위치했다.
  • ResNet50 전이 학습 모델은 테스트 세트에서 최상의 RMSE 0.0709를 달성하여 리더보드의 약 4위에 위치했다.
  • 테스트된 에폭에서 최소한의 데이터 증강이 더 강력한 증강보다 우수했고; 보통 증강은 합리적으로 수행되었으나 때로는 최소 증강보다 뒤처지기도 했다.
  • 주의도 맵은 모델이 차선 표지와 인근 객체에 초점을 두는 것을 나타내며, 3D-LSTM 모델의 시간적 주의는 프레임 간 변화하는 특징을 강조한다.
  • NVIDIA 벤치마크는 동일 평가 설정에서 테스트 RMSE 0.0986, 학습 RMSE 0.0750을 달성하여 제안 방법의 경쟁력을 보여준다.
  • 전반적으로 ResNet50 전이 학습은 명시적 시간 모델링 없이도 강력한 성능을 제공하는 반면, 3D-LSTM 모델은 계산 제약 하에서 시간 맥락을 통합하는 가치가 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.