QUICK REVIEW

[논문 리뷰] REAL: Robust Extreme Agility via Spatio-Temporal Policy Learning and Physics-Guided Filtering

Jialong Liu, Dehan Shen|arXiv (Cornell University)|2026. 03. 18.

Robotic Locomotion and Control인용 수 0

한 줄 요약

REAL 은 지각 손상 하에서 강인한 사족보행 파쿠르를 위한 엔드투엔드 프레임워크로, 시공간 정책 학습, FiLM 기반 교차 모달 융합, EKF를 이용한 물리 가이드 필터링, 일관성 인식 손실 게이트를 결합하여 제로샷 시뮬레이션-현실 전이를 가능하게 한다.

ABSTRACT

Extreme legged parkour demands rapid terrain assessment and precise foot placement under highly dynamic conditions. While recent learning-based systems achieve impressive agility, they remain fundamentally fragile to perceptual degradation, where even brief visual noise or latency can cause catastrophic failure. To overcome this, we propose Robust Extreme Agility Learning (REAL), an end-to-end framework for reliable parkour under sensory corruption. Instead of relying on perfectly clean perception, REAL tightly couples vision, proprioceptive history, and temporal memory. We distill a cross-modal teacher policy into a deployable student equipped with a FiLM-modulated Mamba backbone to actively filter visual noise and build short-term terrain memory actively. Furthermore, a physics-guided Bayesian state estimator enforces rigid-body consistency during high-impact maneuvers. Validated on a Unitree Go2 quadruped, REAL successfully traverses extreme obstacles even with a 1-meter visual blind zone, while strictly satisfying real-time control constraints with a bounded 13.1 ms inference time.

연구 동기 및 목표

지각 저하와 시각적 노이즈 하에서 강인한 사족보행 파쿠르를 촉진한다.
교차 모달 지형 추론을 위한 2단계 교사-학생 정책 파이프라인을 개발한다.
메모리를 위한 Mamba 시간적 백본과 함께 FiLM 기반 시각-고유수용 융합을 포함한다.
강체 일관성을 강화하기 위한 물리 가이드 베이지안 추정기(EKF)를 도입한다.
시뮬레이션-현실 전이의 안정화를 위한 일관성 인식 손실 게이팅 메커니즘을 제안한다.

제안 방법

프라이빗-티처를 이용한 배포 가능한 스튜던트로의 증류와 교차 모달 주의(attention) 기반의 고유수용-지형 연관성.
FiLM 모듈화된 시각 특성와 Mamba 시간적 백본을 결합하여 지각 노이즈 하에서 단기 지형 메모리를 유지한다.
불확실성 인식 신경 속도 추정치를 확장 칼만 필터(EKF)로 강체 역학과 융합하여 물리적으로 일관된 상태 추정을 수행한다.
속도 추정을 위한 Huber-가우시안 손실로 가치와 불확실성을 함께 모델링한다.
증류 중 모방 학습과 강화 학습의 비율을 적응적으로 균형 잡기 위한 일관성 인식 손실 게이팅.

Figure 1: Robust extreme parkour with proposed REAL framework. The robot successfully chains highly dynamic maneuvers across complex terrains with nominal vision (green box), and maintains stable locomotion even under severe visual degradation (red box).

실험 결과

연구 질문

RQ1고유수용-지형 연관성을 활용하는 특권 교사 정책이 지각 저하 하에서 강인한 사족보행 로봇의 주행을 개선할 수 있는가?
RQ2FiLM-모듈화된 교차 모달 학생이 Mamba 백본을 갖추고 외부감각 입력이 오염될 때 실시간으로 강인한 성능을 유지할 수 있는가?
RQ3고속 동작 중 속도/상태 추정이 물리 가이드 EKF 융합으로 향상되는가?
RQ4적응적 손실 게이팅이 시뮬레이션-실제 전이를 안정화하고 지각 노이즈에 대한 강인성을 향상시키는가?
RQ5극한 지형 및 맹점에서 실제 사족보행 로봇(Unitree Go2)에서 제로샷 시뮬레이션-실제 전이가 가능하는가?

주요 결과

REAL은 Unitree Go2에서 1미터 시각 맹지대를 포함한 신뢰할 수 있는 극한 파쿠르를 달성했고, 각 스텝당 추론 시간은 약 13.1 ms이다.
물리 가이드 필터링을 갖춘 FiLM–Mamba 학생은 지각 저하 하에서도 안정성을 유지하며 극한 지형에서 베이스라인을 상회한다.
EKF 기반 융합은 충돌 및 미끄러짐 동안 속도 추정 드리프트를 감소시키고 강체 일관성을 강화한다.
일관성 인식 손실 게이팅은 고정 가중치 베이스라인에 비해 훈련 수렴을 가속하고 시뮬레이션-실제 전이의 강인성을 향상시킨다.
광범위한 도메인 랜덤화 설정은 추가 미세 조정 없이 실제 하드웨어로 제로샷 전이를 가능하게 한다.
제거 연구에서 Mamba 또는 FiLM을 제거하면 성능이 크게 저하되며 시공-시간 메모리와 교차 모달 융합의 중요성을 강조한다.

Figure 2: System architecture of REAL. Stage 1(Privileged Teacher Policy Learning) trains a privileged teacher policy via Proprioception-Terrain Associated Reasoning. Stage 2(Distillation Student Policy Learning) distills a deployable student policy using an onboard Mamba-FiLM spatial-temporal backb

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.