QUICK REVIEW

[논문 리뷰] Combining Deep Reinforcement Learning and Safety Based Control for Autonomous Driving

Xi Xiong, Jianqiang Wang|arXiv (Cornell University)|2016. 12. 01.

Reinforcement Learning in Robotics참고 문헌 12인용 수 65

한 줄 요약

이 논문은 익숙한 환경에서 엔드 투 엔드 정책 학습을 위한 딥 디터미니스틱 포리시 그레이디언트(DDPG)와 동적 교통에서 실시간 충돌 회피를 위한 인공 포텐셜 필드(APF)를 조합한 하이브리드 제어 프레임워크를 제안한다. 이 방법은 혼합 환경에서 안정적인 경로 추적과 강건한 안전성을 달성하여 순수 강화학습 또는 안전 기반 방법만을 사용할 때보다 향상된 성능을 보여준다.

ABSTRACT

With the development of state-of-art deep reinforcement learning, we can efficiently tackle continuous control problems. But the deep reinforcement learning method for continuous control is based on historical data, which would make unpredicted decisions in unfamiliar scenarios. Combining deep reinforcement learning and safety based control can get good performance for self-driving and collision avoidance. In this passage, we use the Deep Deterministic Policy Gradient algorithm to implement autonomous driving without vehicles around. The vehicle can learn the driving policy in a stable and familiar environment, which is efficient and reliable. Then we use the artificial potential field to design collision avoidance algorithm with vehicles around. The path tracking method is also taken into consideration. The combination of deep reinforcement learning and safety based control performs well in most scenarios.

연구 동기 및 목표

이상한 주행 상황에서 딥 강화학습(DRL)의 불안정성과 예측 불가능성을 해결하기 위해.
물리학에 영감을 받은 충돌 회피 메커니즘을 통합하여 동적 교통에서의 안전성을 향상시키기 위해.
구조화된 환경에서 신뢰할 수 있는 경로 추적과 효율적인 정책 학습을 가능하게 하기 위해.
DRL의 샘플 효율성을 잠재력 필드 방법의 실시간 안전 보장과 조합하기 위해.
밀도 높은 교통 환경을 포함한 다양한 주행 상황에서 하이브리드 시스템의 성능을 평가하기 위해.

제안 방법

정적이고 익숙한 환경에서 자율 주행을 위한 딥 강화학습 에이전트를 훈련하기 위해 딥 디터미니스틱 포리시 그레이디언트(DDPG)를 사용한다.
근처 차량으로부터의 반발력을 생성하기 위해 인공 포텐셜 필드(APF)를 활용하여 실시간 충돌 회피를 가능하게 한다.
계획된 경로를 따라 차량의 궤적을 유지하기 위해 경로 추적 제어를 통합한다.
교통 밀도와 환경의 익숙함에 따라 DDPG 정책과 APF 기반 제어 간 전환한다.
연속적인 제어 동작을 사용하여 DDPG 에이전트를 훈련시켜 부드러운 조향 및 가속 결정을 가능하게 한다.
학습된 정책과 안전 제약 조건을 결합하여 극단적인 경우에서도 강건성을 확보한다.

실험 결과

연구 질문

RQ1안전 기반 제어와의 통합을 통해 딥 강화학습이 낯선 주행 상황에서도 강건해질 수 있는가?
RQ2DDPG와 인공 포텐셜 필드를 조합할 경우 충돌 회피 성능에 어떤 영향을 미치는가?
RQ3하이브리드 제어가 경로 추적 정확도와 주행의 부드러움에 미치는 영향은 무엇인가?
RQ4정적 및 동적 장애물이 모두 존재하는 혼합 환경에서 시스템의 성능은 어떠한가?
RQ5실생활 주행 과제에서 순수 DRL 또는 순수 안전 기반 제어보다 하이브리드 접근 방식이 더 나은 성능을 보일 수 있는가?

주요 결과

하이브리드 시스템은 익숙한 환경와 동적 환경 모두에서 안정적이고 신뢰할 수 있는 주행 성능을 달성한다.
DDPG와 APF의 통합은 밀도 높은 교통 상황에서의 충돌 회피 성능을 크게 향상시킨다.
실시간 잠재력 필드 조정을 통해 안전성을 확보하면서도 정확한 경로 추적을 유지한다.
순수 DRL이 일반화 능력 부족으로 실패할 수 있는 낯선 상황에서도 시스템은 강건성을 보여준다.
두 방법의 조합은 각각 독립적으로 사용했을 때보다 더 나은 종합 성능을 제공한다.
이 방법은 구조화된 환경에서 효율적인 정책 학습을 가능하게 하면서도 예측 불가능한 교통 상황에서의 안전성을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.