[论文解读] Deep Reinforcement Learning for Intelligent Transportation Systems
本文提出深度Q网络(DQN)用于智能交通系统中可扩展的实时交通信号控制,表明DQN在单交叉口场景下可学习到最优策略,并在无显式结构先验的多交叉口线性拓扑中自发形成‘绿波’模式,证实其能够从原始观测中发现复杂的交通协调行为。
Intelligent Transportation Systems (ITSs) are envisioned to play a critical role in improving traffic flow and reducing congestion, which is a pervasive issue impacting urban areas around the globe. Rapidly advancing vehicular communication and edge cloud computation technologies provide key enablers for smart traffic management. However, operating viable real-time actuation mechanisms on a practically relevant scale involves formidable challenges, e.g., policy iteration and conventional Reinforcement Learning (RL) techniques suffer from poor scalability due to state space explosion. Motivated by these issues, we explore the potential for Deep Q-Networks (DQN) to optimize traffic light control policies. As an initial benchmark, we establish that the DQN algorithms yield the "thresholding" policy in a single-intersection. Next, we examine the scalability properties of DQN algorithms and their performance in a linear network topology with several intersections along a main artery. We demonstrate that DQN algorithms produce intelligent behavior, such as the emergence of "greenwave" patterns, reflecting their ability to learn favorable traffic light actuations.
研究动机与目标
- 为解决传统强化学习与策略迭代在大规模交通信号控制中因状态空间爆炸而导致的可扩展性限制。
- 评估深度Q网络(DQN)是否能在复杂城市交通场景中学习到高效、实时的交通信号控制策略。
- 探究DQN是否能自主发现如‘绿波’协调等智能交通模式,而无需显式结构约束。
- 在单交叉口设置下验证DQN性能相对于最优基准的表现,并展示其在线性多交叉口拓扑中的可扩展性。
提出的方法
- 将交通信号控制建模为具有离散时间动态和二次拥堵成本函数的马尔可夫决策过程(MDP)。
- 采用带经验回放和目标网络的深度Q网络(DQN)以稳定训练并提高样本效率。
- 使用双DQN变体,配备独立的在线与目标Q网络,通过Adam优化算法在平方时序差分损失上进行更新。
- 在评估网络与目标网络中均使用ReLU激活函数和全连接层(200, 100, 40, 2)进行状态-动作值近似。
- 采用折扣因子 γ = 0.99,并使用伯努利分布的车辆到达率(p = 1/4 和 p = 1/8)来建模随机交通流。
- 通过在单交叉口和线性多交叉口拓扑上的仿真验证DQN性能,分析策略结构与涌现行为。
实验结果
研究问题
- RQ1DQN是否能在单交叉口交通控制场景中实现与最优策略迭代方法相当的性能?
- RQ2DQN在传统方法因状态空间爆炸而失效的多交叉口线性网络拓扑中是否具备可扩展性?
- RQ3DQN是否能自主学习到如‘绿波’等复杂协调交通模式,而无需显式结构先验?
- RQ4哪些定性指标可证实DQN策略中智能交通协调行为的涌现?
主要发现
- 在单交叉口场景中,DQN策略与通过策略迭代获得的可证明最优策略一致,并表现出相同的阈值结构。
- DQN算法在最小化拥堵成本方面实现了最优性能,学习曲线收敛至理论最优值。
- 在线性多交叉口拓扑中,DQN成功学习到交通信号的协调控制,导致车辆队列连续减少,自发形成‘绿波’模式。
- ‘绿波’模式在学习过程中自然涌现,尽管其未被显式编码在奖励函数或动作空间中。
- DQN方法展现出强大的可扩展性,使在传统策略迭代计算不可行的大规模场景中实现有效控制成为可能。
- 结果表明,DQN可仅从观测数据和奖励反馈中学习到交通协调的有利结构特性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。