[论文解读] Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline
TCP 将轨迹规划和直接控制结合成一个统一的端到端框架,使用通过轨迹在时间上及通过注意力引导的多步控制预测,在单目相机输入下实现CARLA排行榜的最先进结果。
Current end-to-end autonomous driving methods either run a controller based on a planned trajectory or perform control prediction directly, which have spanned two separately studied lines of research. Seeing their potential mutual benefits to each other, this paper takes the initiative to explore the combination of these two well-developed worlds. Specifically, our integrated approach has two branches for trajectory planning and direct control, respectively. The trajectory branch predicts the future trajectory, while the control branch involves a novel multi-step prediction scheme such that the relationship between current actions and future states can be reasoned. The two branches are connected so that the control branch receives corresponding guidance from the trajectory branch at each time step. The outputs from two branches are then fused to achieve complementary advantages. Our results are evaluated in the closed-loop urban driving setting with challenging scenarios using the CARLA simulator. Even with a monocular camera input, the proposed approach ranks first on the official CARLA Leaderboard, outperforming other complex candidates with multiple sensors or fusion mechanisms by a large margin. The source code is publicly available at https://github.com/OpenPerceptionX/TCP
研究动机与目标
- 研究将轨迹规划和直接控制相结合是否能为端到端自动驾驶带来互利。
- 开发一个共享表示、实现跨分支引导的统一多任务框架。
- 通过多步预测、时序推理和轨迹引导的注意力来提升控制预测。
- 在闭环CARLA驾驶场景中评估该方法,并在单目输入条件下达到并且确立最先进的结果。
提出的方法
- 两分支架构,共享骨干:一个轨迹规划分支预测未来航路点,另一个控制分支执行多步控制预测。
- 控制分支中的时序模块(基于 GRU),以在多个未来步骤中推理环境动态与自车运动。
- 轨迹引导的注意力利用两个分支的隐藏状态,为每个未来步骤在图像特征上计算注意力图。
- 基于情境的融合,将轨迹输出与控制输出结合,α 权重由驾驶情境决定(如转弯与直行)。
- 损失设计包括带有真实航路点的轨迹规划损失和特征损失、以 Beta 分布与 KL 散度为基础的控制损失,以及辅助速度与价值头。
实验结果
研究问题
- RQ1是否可以通过在共享框架中联合学习轨迹规划和直接控制来提升端到端驾驶性能?
- RQ2在闭环驾驶中,具时序推理的多步控制预测是否优于单步控制?
- RQ3轨迹引导的注意力与基于情境的融合是否能在不同情景(如转弯与直行)中提升鲁棒性?
- RQ4在使用单目输入的标准 CARLA 基准测试中,TCP 框架与单学科端到端方法相比如何?
主要发现
- TCP-Ens 在公开 CARLA Leaderboard 上使用单目相机实现 driving score 75.137(在所有报道的单目方法中最高)。
- 使用单目输入的 TCP 在 driving score 与违规指标方面超过了先前的单目及部分多传感器方法,例如在一个对比变体中,TCP 的 driving score 为 69.714,route completion 为 82.962,infraction score 为 0.851(表格数值)。
- 消融研究表明,增加轨迹任务、时序建模、轨迹引导的注意力和融合, driving 性能逐步提升(例如在受控实验中 driving score 从 32.45 提升到 57.01)。
- 情境基融策略在各情景中显著提升违规分数与总体驾驶性能(实验中 α = 0.3)。
- 该框架清晰地展示了将轨迹与控制结合的优势,简单的单目基线在 CARLA Leaderboard 上达到最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。