QUICK REVIEW

[논문 리뷰] End to End Learning for Self-Driving Cars

Mariusz Bojarski, Davide Testa|arXiv (Cornell University)|2016. 04. 25.

Advanced Neural Network Applications참고 문헌 5인용 수 3,101

한 줄 요약

CNN이 단일 전방 카메라에서 얻은 원시 픽셀을 직접 제어 명령인 핸들링으로 매핑하며, 최소한의 인간 데이터로 학습되어 시뮬레이션과 실제 차량에서 다양한 도로에서 자율 주행이 가능해진다.

ABSTRACT

We trained a convolutional neural network (CNN) to map raw pixels from a single front-facing camera directly to steering commands. This end-to-end approach proved surprisingly powerful. With minimum training data from humans the system learns to drive in traffic on local roads with or without lane markings and on highways. It also operates in areas with unclear visual guidance such as in parking lots and on unpaved roads. The system automatically learns internal representations of the necessary processing steps such as detecting useful road features with only the human steering angle as the training signal. We never explicitly trained it to detect, for example, the outline of roads. Compared to explicit decomposition of the problem, such as lane marking detection, path planning, and control, our end-to-end system optimizes all processing steps simultaneously. We argue that this will eventually lead to better performance and smaller systems. Better performance will result because the internal components self-optimize to maximize overall system performance, instead of optimizing human-selected intermediate criteria, e.g., lane detection. Such criteria understandably are selected for ease of human interpretation which doesn't automatically guarantee maximum system performance. Smaller networks are possible because the system learns to solve the problem with the minimal number of processing steps. We used an NVIDIA DevBox and Torch 7 for training and an NVIDIA DRIVE(TM) PX self-driving car computer also running Torch 7 for determining where to drive. The system operates at 30 frames per second (FPS).

연구 동기 및 목표

엔드-투-엔드 학습이 손으로 제작한 기능 없이 원시 이미지 입력을 사용해 차량을 제어할 수 있음을 Demonstrate한다.
CNN이 제한된 라벨 데이터에서 내부 도로 표현 및 주행 정책을 학습할 수 있음을 Show한다.
고속도로, 지역 도로, 비포장 면을 포함한 다양한 주행 시나리오에서 성능을 Evaluate한다.
데이터 증가 및 시뮬레이션의 데이터로로 robustness를 개선하는 가능성을 Assess 한다.

제안 방법

센터 카메라의 YUV 이미지 입력을 맵핑하여 역 회전 반경 출력으로 변환하는 9-layer CNN을 Train한다.
네트워크 출력과 인간 운전자의 핸들링(또는 중심에서 벗어나거나 회전된 이미지의 보강 핸들링) 간의 평균 제곱 오차를 손실로 사용한다.
편차로부터의 회복을 가르치기 위해 인공적 시프트와 회전을 이용해 학습 데이터를 증강한다.
다양한 도로, 조명, 기상 조건에서 데이터 수집을 수행한다; 고속도로와 차선 표식이 있거나 없는 지역 도로를 포함한다.
사전 녹화된 비디오를 이용한 시뮬레이션과 DRIVE PX 차량 컴퓨팅을 이용한 실제 도로 테스트의 2단계 평가를 통해 검증한다.

실험 결과

연구 질문

RQ1엔드-투-엔드 학습이 도로/차선 표식 탐지 없이 원시 전방 카메라 입력을 핸들링으로 매핑할 수 있는가?
RQ2학습된 정책이 다양한 도로 유형, 기상 조건 및 조명 조건에서 얼마나 일반화되는가?
RQ3배치 전 robustness를 개선하기 위한 데이터 증가 및 시뮬레이션의 영향은 무엇인가?
RQ4시뮬레이션과 실제 도로에서 달성 가능한 자율 주행 성능(자율성 측면에서)은 무엇인가?
RQ5엔드-투-앤드 접근 방식이 모듈식의 손으로 만든 인지 및 제어 파이프라인과 비교했을 때 어떤 차이가 있는가?

주요 결과

CNN은 도로의 윤곽선을 명시적으로 추정하지 않고도 핸들링 각도만을 학습 신호로 사용해 유용한 도로 특징 및 주행 동작을 학습한다.
시스템은 NVIDIA 하드웨어에서 30 FPS로 작동하며 다양한 조건에서 약 72시간의 운전 데이터로 학습되었다.
현 도로 테스트에서 Monmouth County, NJ에서 일반 주행의 약 98%에 대해 Autonomous steering을 시연했고, 10마일의 다차선 고속도로에서 개입 없이 운전했다.
차는 고속도로, 지역 및 주거 도로에서 맑은 날, 흐린 날, 비, 눈 조건에서 주행 가능했으며 비포장 도로와 주차장도 포함된다.
시뮬레이션 실험은 인간 개입을 세고 6초 재촬영 모델을 적용해 자율성을 추정하며 도로 테스트 이전의 척도를 제공한다.
내부 CNN 상태의 시각화를 통해 초기 특성 맵이 포장 도로의 도로 윤곽선에 반응하지만 비도로 장면에서는 잡음처럼 보이는 것을 보여 주어, 명시적 감독 없이 학습된 표현임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.