[论文解读] TADPO: Reinforcement Learning Goes Off-road
TADPO 在 PPO 的基础上通过教师动作蒸馏来学习演示,同时进行探索,使端到端的基于视觉的越野控制成为可能,并实现对全尺寸车辆的零-shot 仿真到现实转移。
Off-road autonomous driving poses significant challenges such as navigating unmapped, variable terrain with uncertain and diverse dynamics. Addressing these challenges requires effective long-horizon planning and adaptable control. Reinforcement Learning (RL) offers a promising solution by learning control policies directly from interaction. However, because off-road driving is a long-horizon task with low-signal rewards, standard RL methods are challenging to apply in this setting. We introduce TADPO, a novel policy gradient formulation that extends Proximal Policy Optimization (PPO), leveraging off-policy trajectories for teacher guidance and on-policy trajectories for student exploration. Building on this, we develop a vision-based, end-to-end RL system for high-speed off-road driving, capable of navigating extreme slopes and obstacle-rich terrain. We demonstrate our performance in simulation and, importantly, zero-shot sim-to-real transfer on a full-scale off-road vehicle. To our knowledge, this work represents the first deployment of RL-based policies on a full-scale off-road platform.
研究动机与目标
- 解决越野自主驾驶中的长时域、低信号的强化学习挑战。
- 开发一个将演示与策略学习结合的教师引导强化学习框架。
- 实现能够导航多样化、未标注地形与障碍物的端到端视觉控制。
提出的方法
- 引入 TADPO,这是一个对 PPO 的策略梯度扩展,能够同时从固定演示和策略滚动学习。
- 定义 L_TADPO 损失,通过受限比值 (rho) 和正优势条件蒸馏教师动作,确保仅在教师优于学生且学生尚未模仿教师时进行更新。
- 允许教师和学生在可能不同的观测空间上工作,以容纳特权演示。
- 使用演员-评论家框架进行训练,在 TADPO 期间梯度更新仅作用于学生的 actor 与特征编码器,而保持评论家不变。
- 采用分层的越野自主管线,全球规划器提供稀疏的路径点,利用 TADPO 训练的 RL 控制器跟踪这些路径点,实现从高层目标到车辆指令的端到端控制。
- 使用 Frozen Vision Backbone(DinoV2 ViT-S/14)和基于 NatureCNN 的编码器,结合本体感知与视觉观测,来驱动油门和方向盘。
实验结果
研究问题
- RQ1教师引导的 PPO 扩展(TADPO)是否能够有效处理越野自治中的长时域规划?
- RQ2在障碍丰富、未标注地形中同时使用演示和策略数据是否能够改善探索与最终策略性能?
- RQ3在全尺寸的真实越野车辆上,仿真训练的 TADPO 策略能否实现零-shot 转移?
- RQ4TADPO 与标准 RL 与模仿学习基线在仿真与真实世界测试中的比较如何?
主要发现
- TADPO 在仿真中对极端坡度、障碍丰富与混合地形的情形下,优于 RL 与 IL 基线。
- 在 Sabercat 的真实世界部署中,使用 TADPO 训练的策略实现了高效的障碍规避和较低的横切误差,且无需实地微调。
- 该方法实现了对全尺寸越野车辆的零-shot 仿真到现实转移,标志着端到端 RL 基于策略在此类平台上的首次部署。
- 消融研究表明使用平衡的教师概率 (p ≈ 0.5) 与对 rho 的设计性裁剪可获得鲁棒学习。
- 具有稀疏全局规划与密集 MPPI 驱动教师演示的分层管线,促成对复杂地形的长时域、高速导航。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。