[论文解读] Learning End-to-end Multimodal Sensor Policies for Autonomous Navigation
本文提出了一种名为Sensor Dropout的新型随机正则化技术,用于在深度强化学习中训练端到端多模态传感器策略,提升了对部分传感器故障的鲁棒性。通过将Sensor Dropout与辅助损失相结合,该方法降低了策略方差,并实现了有效的传感器融合,在噪声环境下性能下降仅为10%,而基线方法则高达50%,即使关键传感器失效也能保持性能。
Multisensory polices are known to enhance both state estimation and target tracking. However, in the space of end-to-end sensorimotor control, this multi-sensor outlook has received limited attention. Moreover, systematic ways to make policies robust to partial sensor failure are not well explored. In this work, we propose a specific customization of Dropout, called extit{Sensor Dropout}, to improve multisensory policy robustness and handle partial failure in the sensor-set. We also introduce an additional auxiliary loss on the policy network in order to reduce variance in the band of potential multi- and uni-sensory policies to reduce jerks during policy switching triggered by an abrupt sensor failure or deactivation/activation. Finally, through the visualization of gradients, we show that the learned policies are conditioned on the same latent states representation despite having diverse observations spaces - a hallmark of true sensor-fusion. Simulation results of the multisensory policy, as visualized in TORCS racing game, can be seen here: https://youtu.be/QAK2lcXjNZc.
研究动机与目标
- 解决端到端多模态传感器策略在自主导航中缺乏系统性鲁棒性的问题。
- 降低对特定传感器子集的过度依赖,尤其是在部分传感器故障的情况下。
- 改善策略泛化能力,并在传感器突然停用或重新激活时降低方差。
- 通过学习异构传感器之间的共享潜在表征,实现真正的传感器融合。
- 提供一个统一的端到端训练框架,支持异构传感器模态,无需预训练或两阶段训练。
提出的方法
- 提出Sensor Dropout,一种定制化的随机正则化技术,在训练过程中随机屏蔽传感器输入,以减少策略对任一传感器的依赖。
- 引入一种辅助损失,惩罚由不同传感器模态导出的子策略之间的不一致,促进策略一致性并降低动作方差。
- 在基于物理的TORCS环境中,使用NAF和DDPG算法,利用多模态输入(物理状态、激光、图像)训练深度强化学习策略。
- 通过梯度可视化分析策略注意力,识别出激光束与运动方向垂直以及图像输入中的道路边界等显著特征。
- 通过潜在空间分析确认策略在不同传感器输入之间学习到了共享的统一表征,表明实现了真正的传感器融合。
- 端到端应用该方法,无需预训练,实现从多模态观测到控制动作的直接映射。
实验结果
研究问题
- RQ1使用Sensor Dropout训练的深度强化学习策略是否能在部分传感器故障下保持高性能?
- RQ2所提出的辅助损失在传感器突然失效或重新激活期间如何降低策略动作的方差?
- RQ3Sensor Dropout在多大程度上促进了真正的传感器融合,表现为异构传感器之间共享的潜在表征?
- RQ4在传感器噪声或性能下降的条件下,采用Sensor Dropout的多传感器策略与基线单传感器或简单多传感器策略相比,性能如何?
- RQ5所学习的策略关注哪些特征?使用和不使用Sensor Dropout训练的策略之间有何差异?
主要发现
- 采用Sensor Dropout的多传感器DRL策略在噪声环境下的性能下降从约50%降低至仅10%,相比基线方法。
- 即使激光和图像传感器同时被遮挡,采用Sensor Dropout训练的策略仍能保持功能,表明对关键传感器模态完全失效具有鲁棒性。
- 辅助损失显著降低了动作方差,使策略在传感器突然失效或重新激活时表现出更平稳的行为。
- 梯度可视化显示,采用Sensor Dropout训练的策略聚焦于显著特征,如与运动方向垂直的激光束和道路边界,表明特征选择能力得到提升。
- 潜在空间分析证实,策略在不同传感器模态之间学习到了共享表征,证明实现了真正的传感器融合,而非输入的简单拼接。
- 采用Sensor Dropout训练的策略在子策略之间泛化能力更强,其分布更集中且更具可区分性,优于标准Dropout或简单多模态训练方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。