Skip to main content
QUICK REVIEW

[論文レビュー] TADPO: Reinforcement Learning Goes Off-road

Zhouchonghao Wu, Raymond Song|arXiv (Cornell University)|Mar 6, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

TADPOはPPOを拡張して教師の行動蒸留を取り入れ、探索と同時にデモンストレーションから学習することで、エンドツーエンドのビジョンベースのオフロード制御と全規模車両でのゼロショットシム実車転送を実現します。

ABSTRACT

Off-road autonomous driving poses significant challenges such as navigating unmapped, variable terrain with uncertain and diverse dynamics. Addressing these challenges requires effective long-horizon planning and adaptable control. Reinforcement Learning (RL) offers a promising solution by learning control policies directly from interaction. However, because off-road driving is a long-horizon task with low-signal rewards, standard RL methods are challenging to apply in this setting. We introduce TADPO, a novel policy gradient formulation that extends Proximal Policy Optimization (PPO), leveraging off-policy trajectories for teacher guidance and on-policy trajectories for student exploration. Building on this, we develop a vision-based, end-to-end RL system for high-speed off-road driving, capable of navigating extreme slopes and obstacle-rich terrain. We demonstrate our performance in simulation and, importantly, zero-shot sim-to-real transfer on a full-scale off-road vehicle. To our knowledge, this work represents the first deployment of RL-based policies on a full-scale off-road platform.

研究の動機と目的

  • オフロード自動走行における長長期・低信号の強化学習課題に対処する。
  • デモンストレーションとオンポリシー学習を組み合わせた教師ガイド付きRLフレームワークを開発する。
  • 多様で未地図化の地形・障害物をナビゲート可能なエンドツーエンドのビジョンベース制御を実現する。

提案手法

  • 固定デモンストレーションとオンポリシーロールアウトを同時に学習するPPOのポリシー勾配拡張としてTADPOを導入する。
  • L_TADPO損失を定義し、制約付き比率(rho)と正の利得条件を用いて教師の行動を蒸留し、教師が学生を上回る場合のみ更新を行い、学生がすでに教師を模倣している場合は更新を行わない。
  • 特権付きデモンストレーションに対応するため、教師と学生が異なる観測空間で動作できるようにする。
  • TADPOでは勾配更新が学生の actor と特徴エンコーダだけに影響し、 critic は固定した状態で actor-critic 設定で学習を行う。
  • グローバルプランナーがスパースなウェイポイントを提供する階層的なオフロード自律パイプラインを採用し、TADPOで訓練された RL コントローラがそれを追跡することで、高レベルの目標から車両指令までをエンドツーエンドに制御可能とする。
  • 凍結したビジョンバックボーン(DinoV2 ViT-S/14)と NatureCNN ベースのエンコーダ、プロプリエオセプティブおよび視覚観測を用いてスロットルとステアリングを駆動する。

実験結果

リサーチクエスチョン

  • RQ1教師ガイド付きPPO拡張(TADPO)はオフロード自動走行の長期計画を効果的に扱えるか?
  • RQ2デモンストレーションとオンポリシーデータを同時に用いることは、障害物の多い未地図化地形での探索と最終ポリシー性能を改善するか?
  • RQ3シミュレーションで訓練したTADPOポリoliciesはゼロショットで実車の全規模オフロード車両へ転送可能か?
  • RQ4シミュレーションと現実世界のテストにおいて、TADPOは標準的なRLおよび模倣学習ベースラインとどのように比較されるか?

主な発見

  • TADPOはシミュレーション内で極端な勾配、障害物の多い地形、ハイブリッド地形においてRLおよびILベースラインを上回る。
  • Sabercatでの実車展開では、TADPOで訓練されたポリシーが実車の微調整なしで高い障害物回避と低いクロストラック誤差を達成する。
  • 全規模のオフロード車両でのゼロショットシム実車転送を実現しており、このようなプラットフォームでのエンドツーエンドRLベースポリシーの初の展開となる。
  • アブレーション研究により、バランスの取れた教師確率(p ≈ 0.5)とrhoの設計クリッピングを用いると堅牢な学習が得られることが示された。
  • スパースなグローバルプランニングと密なMPPI駆動の教師デモンストレーションを組み合わせた階層パイプラインは、複雑な地形での長長期・高速ナビゲーションを促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。