QUICK REVIEW

[논문 리뷰] TADPO: Reinforcement Learning Goes Off-road

Zhouchonghao Wu, Raymond Song|arXiv (Cornell University)|2026. 03. 06.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

TADPO는 교사 액션 증류를 통해 시연으로부터 학습하면서 탐색을 수행하는 PPO를 확장하여, 엔드-투-엔드 비전 기반의 오프로드 제어와 전체 규모 차량에 대한 제로샷 시뮬레이션-현실 전이 가능하게 한다.

ABSTRACT

Off-road autonomous driving poses significant challenges such as navigating unmapped, variable terrain with uncertain and diverse dynamics. Addressing these challenges requires effective long-horizon planning and adaptable control. Reinforcement Learning (RL) offers a promising solution by learning control policies directly from interaction. However, because off-road driving is a long-horizon task with low-signal rewards, standard RL methods are challenging to apply in this setting. We introduce TADPO, a novel policy gradient formulation that extends Proximal Policy Optimization (PPO), leveraging off-policy trajectories for teacher guidance and on-policy trajectories for student exploration. Building on this, we develop a vision-based, end-to-end RL system for high-speed off-road driving, capable of navigating extreme slopes and obstacle-rich terrain. We demonstrate our performance in simulation and, importantly, zero-shot sim-to-real transfer on a full-scale off-road vehicle. To our knowledge, this work represents the first deployment of RL-based policies on a full-scale off-road platform.

연구 동기 및 목표

오프로드 자율주행을 위한 장기적 보상 신호가 낮은 강화학습 문제의 도전에 대응한다.
시연 데이터를 결합한 교사 안내 RL 프레임워크를 개발한다.
다양하고 미확인 지형과 장애물을 항해할 수 있는 엔드-투-엔드 비전 기반 제어 가능성을 확보한다.

제안 방법

고정된 시연과 온-정책 롤아웃을 동시에 학습하는 정책 기울기 기반의 PPO 확장인 TADPO를 도입한다.
제약된 비율(rho)과 양의 이점 조건을 통해 교사 액션을 증류하기 위한 L_TADPO 손실을 정의하고, 교사가 학생보다 우수할 때만 업데이트가 발생하고 학생이 이미 교사를 모방하는 경우에는 업데이트가 되지 않도록 한다.
교사와 학생이 특권적 시연을 수용하기 위해 서로 다른 관찰 공간에서 작동할 수 있도록 허용한다.
TADPO 동안의 그래디언트 업데이트가 학생의 액터와 특징 인코더에만 영향을 주고 크리틱은 고정하는 액터-크리틱 구조로 학습한다.
고해상도 목표에서 차량 명령까지 엔드-투-엔드 제어를 가능하게 하는, 글로벌 플래너가 드물게 제공하는 웨이포인트를 추적하도록 TADPO로 학습된 RL 컨트롤러를 사용하는 계층적 오프로드 자율성 파이프라인을 채택한다.
비전 백본(DinoV2 ViT-S/14)을 고정시키고 NatureCNN 기반 인코더를 사용하며, 프리포리오스텝(observed proprioceptive) 및 시각적 관찰을 통해 스로틀과 조향을 구동한다.

실험 결과

연구 질문

RQ1교사 가이드된 PPO 확장(TADPO)이 오프로드 자율주행에서 장기 계획 문제를 효과적으로 다룰 수 있는가?
RQ2시연 데이터와 온폴리시 데이터의 동시 사용이 장애물이 많은 미확인 지형에서 탐색과 최종 정책 성능을 개선하는가?
RQ3시뮬레이션에서 학습된 TADPO 정책이 제로샷으로 실제 전체 규모 오프로드 차량으로 전이되는 정도는 어느 정도인가?
RQ4시뮬레이션 및 실제 테스트에서 TADPO와 표준 RL 및 모방학습 기반 기준들과의 비교는 어떠한가?

주요 결과

TADPO는 시뮬레이션에서 극한 경사, 장애물 풍부 및 하이브리드 지형에서 RL 및 IL 기준선보다 우수한 성능을 보인다.
Sabercat에서의 실제 배치에서 TADPO로 학습된 정책은 현장 재조정 없이 높은 장애물 회피성 및 낮은 크로스 트랙 오차를 달성한다.
이 접근법은 전체 규모의 오프로드 차량에서 제로샷 시뮬레이션-현실 전이를 가능하게 하며, 이러한 플랫폼에서 엔드-투-엔드 RL 기반 정책의 최초 배치를 나타낸다.
교차 연구에서 균형 잡힌 교사 확률(p ≈ 0.5)과 rho에 대한 설계된 클리핑이 안정적인 학습으로 이어진다는 것을 보인다.
희소한 글로벌 플래닝과 밀집 MPPI 구동 교사 시演을 갖춘 계층적 파이프라인은 복잡한 지형에서의 장기 고속 주행을 촉진한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.