[논문 리뷰] Deep Reinforcement Learning for Autonomous Driving
이 논문은 TORCS 시뮬레이터에서 자율 주행에 DDPG를 적용하고, 연속 동작 공간과 안전 제약을 다루기 위해 맞춤 센서 입력 세트와 보상 함수를 설계한다.
Reinforcement learning has steadily improved and outperform human in lots of traditional games since the resurgence of deep neural network. However, these success is not easy to be copied to autonomous driving because the state spaces in real world are extreme complex and action spaces are continuous and fine control is required. Moreover, the autonomous driving vehicles must also keep functional safety under the complex environments. To deal with these challenges, we first adopt the deep deterministic policy gradient (DDPG) algorithm, which has the capacity to handle complex state and action spaces in continuous domain. We then choose The Open Racing Car Simulator (TORCS) as our environment to avoid physical damage. Meanwhile, we select a set of appropriate sensor information from TORCS and design our own rewarder. In order to fit DDPG algorithm to TORCS, we design our network architecture for both actor and critic inside DDPG paradigm. To demonstrate the effectiveness of our model, We evaluate on different modes in TORCS and show both quantitative and qualitative results.
연구 동기 및 목표
- 연속 동작과 복잡한 상태를 가진 자율 주행에 심층 강화 학습을 적용하는 데 있어 도전 과제를 동기 부여하고 해결한다.
- TORCS에서 DDPG 기반 에이전트를 평가하여 빠르고 안전한 주행 정책을 학습한다.
- TORCS 및 연속 제어에 적합한 센서 입력과 맞춤 보상 함수를 설계한다.
- 자율 주행 태스크를 위한 DDPG 프레임워크 내에서 액터-크리틱 네트워크 아키텍처를 개발한다.
제안 방법
- Steering, acceleration, braking에 대한 연속 제어 정책을 학습하기 위해 DDPG를 사용한다.
- State 표현으로 TORCS에서 29차원 센서 입력 벡터를 선택한다.
- 보상 함수는 트랙을 따라 속도를 장려하고 트랙 중심선으로부터의 편차 및 수직 속도 성분을 페널티한다.
- 특정 아키텍처 배열과 경험 재생 전략으로 액터 및 크리틱 네트워크를 설계한다.
- 학습을 안정화하기 위해 타깃 네트워크와 소프트 업데이트를 도입한다.
실험 결과
연구 질문
- RQ1DDPG가 시뮬레이터에서 효과적인 연속 제어 정책을 학습할 수 있는가?
- RQ2학습 촉진을 위해 TORCS에 맞춘 센서 입력 및 보상 설계는 어떻게 해야 하는가?
- RQ3네트워크 아키텍처와 안정화 기술(예: 타깃 네트워크, 재생 버퍼)이 이 작업의 학습 효율성을 개선하는가?
- RQ4에이전트가 서로 다른 TORCS 모드(훈련 대 경쟁) 및 다양한 주행 시나리오에서 어떻게 성능을 발휘하는가?
주요 결과
- DDPG 기반 에이전트는 TORCS 시뮬레이터에서 빠르게 주행하면서 훈련 설정에서 기능적 안전을 유지하도록 학습할 수 있다.
- 훈련은 에피소드에 걸쳐 평균 속도 및 스텝 증가가 증가하는 모습을 보이며 약 100 에피소드 후 안정화된다.
- 에이전트는 커브 전에 속도를 늦추어 드리프트를 줄이고 코너링 성능을 향상시키는 법을 배운다.
- 대회 모드에서의 성능은 에이전트가 코너에서 상대를 추월하고 변화하는 시나리오에 적응할 수 있음을 보여준다.
- 훈련 행동에는 에이전트가 일시적으로 정체되거나 표류하는 에피소드가 있어 안정성에 영향을 미치는 환경 유발 문제를 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.