QUICK REVIEW

[논문 리뷰] Flow: Architecture and Benchmarking for Reinforcement Learning in Traffic Control.

Cathy Wu, Aboudy Kreidieh|arXiv (Cornell University)|2017. 10. 16.

Traffic control and management인용 수 155

한 줄 요약

Flow는 자율주행차와 인간 운전차가 혼재된 환경에서 학습된 제어기와 전통적인 제어기를 평가하기 위해 SUMO와 rllab을 통합한 딥 강화학습 프레임워크이다. 이 프레임워크는 단순한 신경망 정책이 다양한 밀도에서 고밀도 도로 교통을 안정화시키고 분포 외부로도 일반화됨을 보여주며, 일반화 성능에서 최신 수준의 수작업 설계된 제어기들을 능가함을 입증한다.

ABSTRACT

Flow is a new computational framework, built to support a key need triggered by the rapid growth of autonomy in ground traffic: controllers for autonomous vehicles in the presence of complex nonlinear dynamics in traffic. Leveraging recent advances in deep Reinforcement Learning (RL), Flow enables the use of RL methods such as policy gradient for traffic control and enables benchmarking the performance of classical (including hand-designed) controllers with learned policies (control laws). Flow integrates traffic microsimulator SUMO with deep reinforcement learning library rllab and enables the easy design of traffic tasks, including different networks configurations and vehicle dynamics. We use Flow to develop reliable controllers for complex problems, such as controlling mixed-autonomy traffic (involving both autonomous and human-driven vehicles) in a ring road. For this, we first show that state-of-the-art hand-designed controllers excel when in-distribution, but fail to generalize; then, we show that even simple neural network policies can solve the stabilization task across density settings and generalize to out-of-distribution settings.

연구 동기 및 목표

자율주행차와 인간 운전차가 혼재된 환경에서 확장 가능하고 적응 가능한 교통 제어의 증가하는 수요를 해결하기 위해.
실제 교통 시나리오에서 딥 강화학습 정책을 전통적 수작업 설계 제어기와 비교해 평가할 수 있도록 하기 위해.
다양한 교통 네트워크 구성, 차량 동역학, 작업 정의를 지원하는 유연한 프레임워크를 설계하기 위해.
학습된 정책이 다양한 교통 밀도와 분포 외부 조건에서 일반화 능력을 얼마나 갖추고 있는지 조사하기 위해.
기존 제어기가 분포 이동 조건에서 실패하는 상황에서 학습된 정책이 복잡한 교통 역학을 안정화시킬 수 있음을 입증하기 위해.

제안 방법

교통 미세시뮬레이터인 SUMO와 딥 강화학습 라이브러리인 rllab을 통합하여 통합된 학습 및 평가 환경을 구축하기 위해.
SUMO 내에서 모듈러한 네트워크 구성과 사용자 정의 가능한 차량 동역학을 사용해 교통 제어 작업을 정의하기 위해.
신경망 정책을 위한 교통 신호 및 차량 제어를 학습하기 위해 정책 기반 강화학습 알고리즘을 구현하기 위해.
다양한 차량 밀도에서 제어기 성능을 평가하기 위한 핵심 벤치마크로 혼합 자율주행 환경의 고리형 도로 시나리오를 사용하기 위해.
지속적 제어 설정을 통해 엔드 투 엔드로 정책을 학습시켜 교통 안정성 목표를 직접 최적화할 수 있도록 하기 위해.
분포 내 및 분포 외부 교통 조건에서 학습된 정책과 전통적 제어기를 평가하여 내성 및 일반화 능력을 평가하기 위해.

실험 결과

연구 질문

RQ1딥 강화학습 정책은 다양한 교통 밀도에서 혼합 자율주행 환경의 고리형 도로에서 교통을 안정화시킬 수 있는가?
RQ2성능과 밀도 설정에서의 일반화 능력 측면에서 학습된 정책은 최신 수준의 수작업 설계 제어기와 어떻게 비교되는가?
RQ3학습된 정책은 기존 제어기가 실패하는 분포 외부 교통 조건으로 일반화되는가?
RQ4네트워크 구성과 차량 동역학은 정책 학습과 제어 안정성에 어떤 영향을 미치는가?
RQ5복잡한 아키텍처 설계 없이도 단순한 신경망 아키텍처가 강건한 교통 안정화를 달성할 수 있는가?

주요 결과

최신 수준의 수작업 설계 제어기는 분포 내 조건에서는 잘 작동하지만, 훈련 범위를 벗어난 교통 밀도로 이격되면 일반화에 실패한다.
딥 강화학습을 통해 훈련된 단순한 신경망 정책은 광범위한 밀도 범위에서 혼합 자율주행 교통을 성공적으로 안정화시킨다.
학습된 정책은 분포 외부 설정으로도 효과적으로 일반화되어 기존 제어기가 붕괴하는 상황에서도 안정성을 유지한다.
Flow 프레임워크는 통합적이고 확장 가능한 환경에서 학습된 정책과 전통적 제어기를 신뢰성 있게 훈련 및 평가할 수 있도록 한다.
SUMO와 rllab의 통합은 다양한 교통 시나리오와 제어 목표에 대한 효율적인 실험을 가능하게 한다.
Flow에서의 정책 기반 방법은 비선형 역학과 혼합 자율주행을 포함한 실세계 교통 제어 문제에 대해 실용적인 타당성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.