Skip to main content
QUICK REVIEW

[论文解读] Using a Deep Reinforcement Learning Agent for Traffic Signal Control

Wade Genders, Saiedeh Razavi|arXiv (Cornell University)|Nov 3, 2016
Traffic control and management参考文献 17被引用 242
一句话总结

本文在 SUMO 中使用离散交通状态编码(DTSE)开发了一个深度Q网络交通信号控制器,与浅层神经网络控制器相比,在延迟、队列长度和行驶时间方面实现了显著减少。

ABSTRACT

Ensuring transportation systems are efficient is a priority for modern society. Technological advances have made it possible for transportation systems to collect large volumes of varied data on an unprecedented scale. We propose a traffic signal control system which takes advantage of this new, high quality data, with minimal abstraction compared to other proposed systems. We apply modern deep reinforcement learning methods to build a truly adaptive traffic signal control agent in the traffic microsimulator SUMO. We propose a new state space, the discrete traffic state encoding, which is information dense. The discrete traffic state encoding is used as input to a deep convolutional neural network, trained using Q-learning with experience replay. Our agent was compared against a one hidden layer neural network traffic signal control agent and reduces average cumulative delay by 82%, average queue length by 66% and average travel time by 20%.

研究动机与目标

  • 推动充分利用丰富的交通数据来以尽可能少的抽象控制信号。
  • 提出一种密集且信息丰富的状态表示(DTSE),用于交通交叉口。
  • 开发一个能够学习最优相位序列的深度Q网络交通信号控制器(DQTSCA)。
  • 将性能与浅层神经网络 TSCA(STSCA)进行比较并展示提升。
  • 为将来扩展到更广泛的交叉口几何和信号相位提供见解。

提出的方法

  • 将 DTSE 定义为每条车道的三部分状态表示:布尔型车辆存在向量、实值速度向量,以及当前交通相位向量 P。
  • 将动作空间定义为四种信号相位配置:NSG、EWG、NSLG、EWLG,安全切换序列包括 NSY、EWY 和 R。
  • 奖励是在执行动作后累积车辆延迟的变化,用以引导长期优化。
  • 实现一个深度卷积Q网络(两个并行的CNN流用于布尔输入和实值输入)再加上 P, 通过两个全连接层产生四个动作的Q值。
  • 使用经验回放和 RMSprop 优化(alpha=0.00025,gamma=0.95)的Q学习进行训练。
  • 使用 epsilon-greedy 探索策略,在 1600 个训练时期内逐渐衰减;将性能与不使用经验回放的浅层 TSCA 进行比较。

实验结果

研究问题

  • RQ1离散交通状态编码(DTSE)是否为深度强化学习交通信号控制器提供了比传统状态抽象更丰富、信息量更大的输入?
  • RQ2通过经验回放训练的深度Q网络在吞吐量、队列长度、行驶时间和累计延迟方面是否优于浅层神经网络 TSCA?
  • RQ3学习进展(探索 vs. 开发利用)如何影响训练过程中的奖励轨迹和交通指标?
  • RQ4所提出的基于 DTSE 的控制器是否能够适应不同的信号配置并在无需重新训练的情况下扩展到更复杂的交叉口?

主要发现

  • 相比于 STSCA,DQTSCA 实现了平均累计延迟下降 82%。
  • 相较于 STSCA,DQTSCA 将平均队列长度降低 66%,平均行驶时间降低 20%。
  • 在报告的结果中,DQTSCA 与 STSCA 的吞吐量相似(未说明改进)。
  • 在训练过程中,探索导致高方差和负奖励,随着策略转向利用并收敛而稳定。
  • DTSE 加深度架构相对于浅层代理实现了更优的性能,表明更丰富的状态表示和特征学习带来的好处。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。