QUICK REVIEW

[논문 리뷰] Reinforcement Learning and Deep Learning based Lateral Control for Autonomous Driving

Dong Li, Dongbin Zhao|arXiv (Cornell University)|2018. 10. 30.

Reinforcement Learning in Robotics참고 문헌 49인용 수 39

한 줄 요약

이 논문은 시각 기반의 자율주행을 위한 횡방향 제어 프레임워크를 제안하며, 다중 작업 학습(MTL-CNN)을 사용해 인식과 제어를 분리하고, 제어에는 강화학습(PPO 기반의 정책 기울기)을 적용한다. MTL-RL 컨트롤러는 다양한 트랙에서 LQR 및 MPC를 능가하며, 시각 입력만으로 안정적이고 정확한 차선 유지 제어를 달성했으며, 새로운 시뮬레이터(VTORCS)를 통해 검증되었다.

ABSTRACT

This paper investigates the vision-based autonomous driving with deep learning and reinforcement learning methods. Different from the end-to-end learning method, our method breaks the vision-based lateral control system down into a perception module and a control module. The perception module which is based on a multi-task learning neural network first takes a driver-view image as its input and predicts the track features. The control module which is based on reinforcement learning then makes a control decision based on these features. In order to improve the data efficiency, we propose visual TORCS (VTORCS), a deep reinforcement learning environment which is based on the open racing car simulator (TORCS). By means of the provided functions, one can train an agent with the input of an image or various physical sensor measurement, or evaluate the perception algorithm on this simulator. The trained reinforcement learning controller outperforms the linear quadratic regulator (LQR) controller and model predictive control (MPC) controller on different tracks. The experiments demonstrate that the perception module shows promising performance and the controller is capable of controlling the vehicle drive well along the track center with visual input.

연구 동기 및 목표

순수한 엔드 투 엔드 학습에서 발생하는 오차 누적 문제를 피하는 강력한 엔드 투 엔드 시각 기반 횡방향 제어 시스템을 개발하는 것.
CNN에서 다중 작업 학습을 통해 차선과 관련된 여러 특징(예: 중심선까지 거리, 요각)을 함께 학습시켜 데이터 효율성과 인식 정확도를 향상시키는 것.
명시적인 차량 동역학 모델이 필요 없이 다양한 트랙 환경에서 일반화 가능한 모델-프리 강화학습 컨트롤러를 설계하는 것.
훈련 및 평가를 위한 고정밀도이고 접근 가능한 시뮬레이션 환경(VTORCS)을 구축하는 것.

제안 방법

인식 모듈은 다중 작업 학습 컨volution 신경망(MTL-CNN)을 사용하여 드라이버 시각 이미지를 처리하고 동시에 핵심 트랙 특징(차선 중심까지의 거리, 헤딩 각도 차이)을 예측한다.
제어 모듈은 정책 기울기 강화학습 알고리즘(PPO)을 사용하여 예측된 트랙 특징 기반으로 조향 명령을 생성한다.
새로운 시뮬레이션 환경인 시각적 TORCS(VTORCS)를 개발하였으며, 이는 TORCS 기반으로 구축되어 강화학습 훈련과 인식 평가를 위한 이미지 및 센서 입력을 지원한다.
MTL-CNN는 중심선까지 거리 및 요각에 대한 회귀 손실을 조합한 공동 손실 함수를 최소화하도록 훈련된다.
강화학습 에이전트는 밀도 높은, 희소한, 그리고 형태가 조정된 보상을 사용하여 차선 중심 추적과 부드러운 조향을 장려하도록 훈련된다.
다양한 난이도의 트랙(g-track-3, alpine-2 등)에서 LQR 및 MPC 컨트롤러와의 성능 비교를 위해 여러 트랙에서 시스템을 평가한다.

실험 결과

연구 질문

RQ1단일 시각 이미지에서 중심선까지 거리 및 요각과 같은 핵심 트랙 특징을 정확하고 견고하게 예측하기 위해 다중 작업 딥 러닝 인식 네트워크가 상관관계가 있는 작업을 함께 학습함으로써 성능 향상을 이룰 수 있는가?
RQ2MTL-예측 특징에 기반한 정책 기울기 강화학습 컨트롤러가 다양한 미리 보지 않은 트랙 환경에서 전통적인 모델 기반 컨트롤러(LQR, MPC)를 능가하는가?
RQ3엔드 투 엔드 학습과 비교했을 때 인식과 강화학습 모듈의 통합은 데이터 효율성과 정책 일반화 측면에서 어떻게 다른가?
RQ4제안된 VTORCS 시뮬레이터가 시각 기반 자율주행 에이전트의 효율적이고 현실적인 훈련을 얼마나 잘 지원하는가?
RQ5MTL-CNN 예측이 완벽하지 않은 상황에서, 같은 특징을 사용하는 모델 기반 LQR 컨트롤러와 비교해 MTL-RL 컨트롤러는 어떤 성능을 보이는가?

주요 결과

MTL-CNN 인식 모듈은 단일 작업 기반 베이스라인보다 낮은 테스트 오차를 기록하여, 중심선까지 거리 및 요각과 같은 관련 있는 작업을 함께 학습함으로써 특징 표현이 향상됨을 입증했다.
g-track-3 트랙에서 MTL-RL 컨트롤러는 시각 입력만으로 전 랩을 성공적으로 완주했으며, 채른의 단일 작업 인식 방법은 어두운 날개 구간에서 실패했다.
alpine-2 트랙에서 MTL-RL 컨트롤러는 평균 차선 이탈 거리 0.148 m를 기록하여 MTL-LQR 컨트롤러(0.175 m)를 능가했으며, 인식 노이즈에 대한 우수한 내구성을 보였다.
모든 테스트 트랙에서 MTL-RL 컨트롤러는 LQR 및 MPC 컨트롤러를 모두 능가했으며, 강력한 일반화 능력과 적응성의 우수함을 입증했다.
VTORCS 시뮬레이터를 통해 효율적인 데이터 수집이 가능했으며, 시각 기반 강화학습 에이전트의 훈련 및 평가를 위한 현실적이고 접근 가능한 플랫폼을 제공했다.
강화학습 컨트롤러는 인식 특징이 노이즈가 있을 경우에도 안정적인 제어를 유지하는 데 더 뛰어난 내구성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.