QUICK REVIEW

[논문 리뷰] Task-Level Decisions to Gait Level Control: A Hierarchical Policy Approach for Quadruped Navigation

Sijia Li, Haoyu Wang|arXiv (Cornell University)|2026. 03. 06.

Robotic Locomotion and Control인용 수 0

한 줄 요약

계층적 TDGC 프레임워크는 고수준 태스크 정책과 걸음걸이 조건의 저수준 컨트롤러를 연결하여 혼합 및 분포외 지형에서 강인한 4족 보행 내비게이션을 달성하며, 성능 주도 커리큘럼의 도움을 받습니다.

ABSTRACT

Real-world quadruped navigation is constrained by a scale mismatch between high-level navigation decisions and low-level gait execution, as well as by instabilities under out-of-distribution environmental changes. Such variations challenge sim-to-real transfer and can trigger falls when policies lack explicit interfaces for adaptation. In this paper, we present a hierarchical policy architecture for quadrupedal navigation, termed Task-level Decision to Gait Control (TDGC). A low-level policy, trained with reinforcement learning in simulation, delivers gait-conditioned locomotion and maps task requirements to a compact set of controllable behavior parameters, enabling robust mode generation and smooth switching. A high-level policy makes task-centric decisions from sparse semantic or geometric terrain cues and translates them into low-level targets, forming a traceable decision pipeline without dense maps or high-resolution terrain reconstruction. Different from end-to-end approaches, our architecture provides explicit interfaces for deployment-time tuning, fault diagnosis, and policy refinement. We introduce a structured curriculum with performance-driven progression that expands environmental difficulty and disturbance ranges. Experiments show higher task success rates on mixed terrains and out-of-distribution tests.

연구 동기 및 목표

현실 세계의 4족 보행 내비게이션에서 고수준 내비게이션 결정과 저수준 보행 실행 간의 스케일 불일치를 완화한다.
배포 시 튜닝, 고장 진단 및 정책 개선을 위한 명시적 인터페이스를 제공한다.
밀집 지도나 고해상도 지형 재구성에 의존하지 않고도 견고한 장거리 내비게이션을 가능하게 한다.
구조화된 커리큘럼을 통해 혼합 지형과 분포외 지형에서의 학습 효율성과 일반화를 개선한다.

제안 방법

명시적 교차 계층 인터페이스를 통해 태스크 수준 의사결정과 보행 수준 실행을 연결하는 동기화된 계층적 정책 시스템을 도입한다.
걸음걸이 조건부의 저수준 컨트롤러를 개발하여 축약된 행동 매개변수를 여러 보행(tro t, pronk, pace, bound)에 걸친 실행 가능한 관절 수준 목표로 매핑한다.
희소한 지형 신호를 입력으로 받아 축약된 행동 매개변수 벡터를 출력하는 고수준 정책을 설계하고, 디코더가 이를 실행 가능한 저수준 명령으로 변환한다.
시뮬레이션에서 저수준 정책을 학습시켜 보행 조건에 의한 보행과 강인한 명령 추적을 학습한다; 고수준 정책은 동결된 저수준 실행기에 대해 강화학습으로 학습한다.
환경 난이도와 교란 범위를 확장하기 위한 성능 주도적 진행의 구조화된 커리큘럼을 적용하여 지형 간 강인성을 향상시킨다.

실험 결과

연구 질문

RQ1명시적 교차 계층 인터페이스를 갖춘 계층적 정책이 밀집한 지형 재구성 없이도 혼합 지형에서의 장기 내비게이션 성능을 향상시킬 수 있는가?
RQ2걸음걸이 조건부 저수준 제어가 더 매끄러운 모드 전환과 더 나은 교란 반응을 가능하게 하면서도 여전히 태스크 레벨에서 학습 가능한가?
RQ3성능 주도 커리큘럼이 4족 보행 내비게이션의 학습 효율성과 지형 간 일반화에 어떤 영향을 미치는가?

주요 결과

다섯 가지 지형 계열에 걸친 가장 어려운 지형 수준(레벨 6–10)에서 평균 성공률 87.4%.
TDGC는 어려운 지형에서 기본 GP 정책보다 더 매끄럽고 일관된 궤적과 목표 지향적 행동을 생성한다.
계층적 컨트롤러는 예를 들어 계단 오르기에 trot, 간격 건너기에 bound와 같은 해석 가능한 태스크-보행 의사결정을 제공하여 진단 가능하고 배치 가능한 행동을 가능하게 한다.
구조화된 커리큘럼 학습과 교차 계층 인터페이스를 통해 분포외 지형에 대한 강인성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.