QUICK REVIEW

[논문 리뷰] Human-Like Autonomous Car-Following Model with Deep Reinforcement Learning

Meixin Zhu, Xuesong Wang|arXiv (Cornell University)|2019. 01. 03.

Traffic control and management참고 문헌 39인용 수 27

한 줄 요약

이 논문은 깊이 강화학습(DRL)을 사용하여 인간과 유사한 자율 주행 모델을 제안한다. 에이전트는 속도 및 간격의 격차를 기반으로 한 보상 함수를 통해 실제 주행 데이터에서 학습한다. DDPGvRT 모델은 18%의 간격 오차와 5%의 속도 오차를 기록하여 전통적 및 데이터 기반 모델을 능가하며, 주행 시나리오 전반에 걸쳐 일반화되고 다양한 운전자에게 적응하기 위한 지속적 학습을 통해 성능을 높인다.

ABSTRACT

This study proposes a framework for human-like autonomous car-following planning based on deep reinforcement learning (deep RL). Historical driving data are fed into a simulation environment where an RL agent learns from trial and error interactions based on a reward function that signals how much the agent deviates from the empirical data. Through these interactions, an optimal policy, or car-following model that maps in a human-like way from speed, relative speed between a lead and following vehicle, and inter-vehicle spacing to acceleration of a following vehicle is finally obtained. The model can be continuously updated when more data are fed in. Two thousand car-following periods extracted from the 2015 Shanghai Naturalistic Driving Study were used to train the model and compare its performance with that of traditional and recent data-driven car-following models. As shown by this study results, a deep deterministic policy gradient car-following model that uses disparity between simulated and observed speed as the reward function and considers a reaction delay of 1s, denoted as DDPGvRT, can reproduce human-like car-following behavior with higher accuracy than traditional and recent data-driven car-following models. Specifically, the DDPGvRT model has a spacing validation error of 18% and speed validation error of 5%, which are less than those of other models, including the intelligent driver model, models based on locally weighted regression, and conventional neural network-based models. Moreover, the DDPGvRT demonstrates good capability of generalization to various driving situations and can adapt to different drivers by continuously learning. This study demonstrates that reinforcement learning methodology can offer insight into driver behavior and can contribute to the development of human-like autonomous driving algorithms and traffic-flow models.

연구 동기 및 목표

실제 운전자의 행동을 모방하는 인간과 유사한 자율 차량 추종 모델을 개발하기 위해 깊이 강화학습을 사용한다.
자연주의 주행 데이터에서 학습함으로써 전통적 및 최근의 데이터 기반 차량 추종 모델을 향상시키기 위해 노력한다.
지속적 학습을 통해 새로운 운전자와 주행 조건에 대한 모델의 적응을 가능하게 한다.
실제 주행 데이터를 사용하여 기존 기준 모델과의 성능 비교를 통해 모델의 성능을 검증한다.
지능형 교통 시스템에서 복잡한 운전자 행동을 모델링하기 위해 강화학습의 잠재력을 탐색한다.

제안 방법

에이전트가 차량 상태(속도, 상대 속도, 차간 거리)를 가속도 행동으로 매핑할 수 있도록 깊이 결정적 정책 기반 강화학습(DDPG) 알고리즘을 사용하여 학습한다.
보상 함수는 시뮬레이션된 차량 속도와 관측된 차량 속도 간의 격차의 음수로 정의되며, 이는 에이전트가 실제 인간 주행 패턴을 모방하도록 유도한다.
환경에 실제 인간의 반응 시간을 반영하기 위해 1초의 반응 지연을 명시적으로 모델링한다.
학습 환경은 2015년 상하이 자연주의 주행 연구에서 확보한 2,000개의 차량 추종 주기로 구성된다.
새로운 데이터가 들어올 때마다 모델이 지속적으로 업데이트되어 새로운 주행 행동에 대한 온라인 적응이 가능하다.
기준 모델과의 비교를 통해 간격 및 속도 검증 오차를 사용하여 성능을 평가한다.

실험 결과

연구 질문

RQ1깊이 강화학습은 실제 주행 데이터에서 인간과 유사한 차량 추종 행동을 효과적으로 학습할 수 있는가?
RQ2DDPGvRT 모델은 전통적 모델인 지능형 운전자 모델(IDM) 및 회귀 또는 신경망 기반 데이터 기반 모델과 비교해 정확도에서 어떻게 성능을 냈는가?
RQ3DDPGvRT 모델은 다양한 주행 시나리오에 대해 얼마나 잘 일반화되며, 다양한 운전자에게 얼마나 잘 적응하는가?
RQ41초의 반응 지연을 통합함으로써 학습된 정책의 현실성과 성능은 어떻게 향상되는가?
RQ5새로운 데이터를 지속적으로 업데이트하여 장기적으로도 관련성과 정확성을 유지할 수 있는가?

주요 결과

DDPGvRT 모델은 18%의 간격 검증 오차를 기록하여 다른 모델보다 유의미하게 낮아 인간의 간격 행동을 높은 정밀도로 재현하고 있음을 시사한다.
모델은 5%의 속도 검증 오차를 기록하여 실제 운전자 속도 조정을 뛰어난 정확도로 모방하고 있음을 보여준다.
지능형 운전자 모델과 局부加權 회귀 모델과 비교해 DDPGvRT는 모든 평가 지표에서 일관된 성능 향상을 보였다.
재훈련 없이도 새로운 주행 시나리오에 대해 잘 일반화되어 안정적인 성능을 유지한다.
지속적 학습을 통해 다양한 운전자에게 효과적으로 적응하여 강력한 개인화 잠재력을 보여준다.
학습 환경에 1초의 반응 지연을 통합함으로써 학습된 정책의 현실성과 성능이 향상되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.