QUICK REVIEW
[论文解读] IntentNet: Learning to Predict Intention from Raw Sensor Data
Sergio Casas, Wenjie Luo|arXiv (Cornell University)|Jan 20, 2021
Autonomous Vehicle Technology and Safety被引用 250
一句话总结
IntentNet 直接从原始 LiDAR BEV 数据和动态地图,在一个端到端网络中联合检测车辆并预测连续轨迹和离散的高层次意图,提高检测、轨迹预测和意图预测的共享计算。
ABSTRACT
In order to plan a safe maneuver, self-driving vehicles need to understand the intent of other traffic participants. We define intent as a combination of discrete high-level behaviors as well as continuous trajectories describing future motion. In this paper, we develop a one-stage detector and forecaster that exploits both 3D point clouds produced by a LiDAR sensor as well as dynamic maps of the environment. Our multi-task model achieves better accuracy than the respective separate modules while saving computation, which is critical to reducing reaction time in self-driving applications.
研究动机与目标
- 通过准确推断其他主体的高层次意图和未来动作,推动安全的自动驾驶。
- 开发一个融合 LiDAR BEV 和动态地图信息的一阶段网络,以预测离散动作和连续轨迹。
- 联合优化检测、意图分类和轨迹回归,以在提高准确性的同时降低计算时间。
提出的方法
- 将 LiDAR 点云以鸟瞰视角(BEV)表示为一个高为通道的3D张量,并叠加多个历史扫掠以获得时间上下文。
- 将动态高清地图栅格化为 BEV 二值掩模,以编码道路拓扑、车道、交叉口和交通信号灯状态。
- 使用两路骨干网络分别处理 LiDAR BEV 和地图输入,然后融合特征并传递给三个任务专用头部(检测、离散意图、轨迹回归)。
- 为每个锚框预测:(i) 车辆/背景检测分数,(ii) 八类的离散高层次意图,以及 (iii) 通过时间步的边界框来预测未来轨迹。
- 用包含检测损失、带时间折扣的意图交叉熵,以及对轨迹的加权平滑L1回归损失的多任务端到端训练;包含一个时间折扣因子以应对未来的不确定性。
实验结果
研究问题
- RQ1一个单一的端到端网络能否从原始 LiDAR 和地图数据同时检测车辆、预测离散的高层次意图,并预测长期轨迹?
- RQ2LiDAR 与地图信息的早期/晚期融合加上时间上下文是否比基于 FaF 的方法在检测和意图/轨迹预测上有改进?
- RQ3包含地图先验和离散意图损失对整体检测和运动预测性能有何影响?
主要发现
- IntentNet 在不同 IoU 阈值上的检测 mAP 高于实时检测器(例如 mAP@0.5 = 94.4, mAP@0.6 = 89.4, mAP@0.7 = 75.4, mAP@0.8 = 43.5, mAP@0.9 = 3.9)。
- 在轨迹回归方面,沿轨迹方向的 L1、横向 L1 以及航向误差相较 FaF 和 FaF’ 有所提高(如沿向 0s:0.26 m;1s:0.46 m;横向 0s:0.15 m;航向 0s:5.14°)。
- IntentNet 在意图预测方面优于基线,尤其是对较少表示的动作;在考虑地图和离散意图建模后,对所有动作的平均准确率达到 97.7%。
- 结合地图先验与离散意图损失可获得最佳总体性能,去除地图或意图损失会降低结果,按消融研究结果。
- 与 FaF 相比,使用完整输入(地图 + 高层行动)的 IntentNet 实现了检测改进和更长 horizon 的运动预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。