[논문 리뷰] Centralized Conflict-free Cooperation for Connected and Automated Vehicles at Intersections by Proximal Policy Optimization.
이 논문은 모델 가속화된 프록시멀 정책 최적화(MA-PPO) 알고리즘을 사용하여 비신호 교차로에서 연결 및 자율 주행 차량의 중앙집중식 강화학습 기반 협업 방법을 제안한다. PPO에 사전 모델을 통합하고, 궤적 최적화를 고유한 상태, 행동, 보상 설계를 가진 마르코프 결정 과정으로 정식화함으로써, 오프라인 훈련을 통해 충돌 없는 교통 흐름을 달성하고 교차로 효율성을 향상시킨다.
Connected vehicles will change the modes of future transportation management and organization, especially at intersections. There are mainly two categories coordination methods at unsignalized intersection, i.e. centralized and distributed methods. Centralized coordination methods need huge computation resources since they own a centralized controller to optimize the trajectories for all approaching vehicles, while in distributed methods each approaching vehicles owns an individual controller to optimize the trajectory considering the motion information and the conflict relationship with its neighboring vehicles, which avoids huge computation but needs sophisticated manual design. In this paper, we propose a centralized conflict-free cooperation method for multiple connected vehicles at unsignalized intersection using reinforcement learning (RL) to address computation burden naturally by training offline. We firstly incorporate a prior model into proximal policy optimization (PPO) algorithm to accelerate learning process. Then we present the design of state, action and reward to formulate centralized cooperation as RL problem. Finally, we train a coordinate policy by our model-accelerated PPO (MA-PPO) in a simulation setting and analyze results. Results show that the method we propose improves the traffic efficiency of the intersection on the premise of ensuring no collision.
연구 동기 및 목표
- 비신호 교차로에서 연결 차량 시스템의 중앙집중식 협업에 따른 높은 계산 부담을 해결하기 위해.
- 분산 방법에서 수동 설계에 의존하는 것을 줄이기 위해 강화학습을 활용하여 자동 궤적 최적화를 실현하기 위해.
- 충돌 없는 차량 협업을 보장하면서 교차로의 교통 효율성을 향상시키기 위해.
- PPO 알고리즘에 사전 모델을 통합하여 딥 강화학습의 학습을 가속화하기 위해.
제안 방법
- 방법은 다중 차량 궤적 최적화를 위한 상태, 행동, 보상 구성 요소를 정의함으로써 중앙집중식 차량 협업을 마르코프 결정 과정으로 정식화한다.
- 학습 수렴 속도를 향상시키기 위해 사전 모델을 프록시멀 정책 최적화(PPO) 알고리즘에 통합한다.
- MA-PPO 알고리즘은 시뮬레이션 환경에서 오프라인으로 훈련되어 충돌 없는 차량 통과를 위한 협업 정책을 학습한다.
- 상태 표현은 차량의 위치, 속도 및 주변 차량과의 충돌 관계를 포함한다.
- 행동 공간은 충돌을 방지하기 위한 각 차량의 궤적 조정(예: 속도 변경)을 정의한다.
- 보상 함수는 적시 통과를 장려하면서 충돌과 과도한 감속에 대해 벌점을 주기 위해 설계된다.
실험 결과
연구 질문
- RQ1중앙집중식 강화학습 접근법이 비신호 교차로에서 다수의 연결 차량을 충돌 없이 효과적으로 협업할 수 있는가?
- RQ2PPO에 사전 모델을 통합함으로써 차량 협업 과제에서 학습 효율성이 어떻게 향상되는가?
- RQ3기존 방법과 비교해 볼 때 제안된 방법이 교차로의 교통 효율성을 어느 정도 향상시키는가?
- RQ4설계된 상태, 행동, 보상 구성 요소가 학습 과정의 안정성과 수렴에 어떤 영향을 미치는가?
주요 결과
- 제안된 MA-PPO 방법은 비신호 교차로에서 충돌 없는 차량 통과를 보장하는 협업 정책을 성공적으로 학습하였다.
- PPO에 사전 모델을 통합함으로써 오프라인 훈련 중 학습 과정이 크게 가속화되었다.
- 차량 지연 감소와 원활한 교통 흐름을 통해 교차로에서의 교통 효율성이 향상됨을 확인하였다.
- 보상 함수 설계가 안전성과 효율성의 균형을 효과적으로 유지하여 불필요한 감속을 최소화하면서 충돌을 방지하였다.
- 시뮬레이션 결과는 중앙집중식 접근법이 다수 차량에 대한 확장 가능한 협업을 유지하면서도 높은 성능을 발휘함을 확인하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.