[論文レビュー] Task-Level Decisions to Gait Level Control: A Hierarchical Policy Approach for Quadruped Navigation
階層的な TDGC フレームワークが高レベルのタスク方針を歩行条件付きの低レベル制御器と結びつけ、混合および分布外の地形でのロバストな四足歩行ナビゲーションを実現。パフォーマンス駆動のカリキュラムにより支援。
Real-world quadruped navigation is constrained by a scale mismatch between high-level navigation decisions and low-level gait execution, as well as by instabilities under out-of-distribution environmental changes. Such variations challenge sim-to-real transfer and can trigger falls when policies lack explicit interfaces for adaptation. In this paper, we present a hierarchical policy architecture for quadrupedal navigation, termed Task-level Decision to Gait Control (TDGC). A low-level policy, trained with reinforcement learning in simulation, delivers gait-conditioned locomotion and maps task requirements to a compact set of controllable behavior parameters, enabling robust mode generation and smooth switching. A high-level policy makes task-centric decisions from sparse semantic or geometric terrain cues and translates them into low-level targets, forming a traceable decision pipeline without dense maps or high-resolution terrain reconstruction. Different from end-to-end approaches, our architecture provides explicit interfaces for deployment-time tuning, fault diagnosis, and policy refinement. We introduce a structured curriculum with performance-driven progression that expands environmental difficulty and disturbance ranges. Experiments show higher task success rates on mixed terrains and out-of-distribution tests.
研究の動機と目的
- 実世界の四足歩行ナビゲーションにおける高レベルのナビゲーション決定と低レベルの歩法実行のスケールミスマッチを緩和する。
- デプロイ時の調整、故障診断、ポリシーの改良のための明示的インターフェースを提供する。
- 密な地図や高解像度の地形再構成に依存せず、堅牢な長距離ナビゲーションを実現する。
- 構造化されたカリキュラムを通じて混合地形および分布外地形への適応性と一般化を向上させ、訓練効率を改善する。
提案手法
- タスクレベルの意思決定と歩法レベルの実行を明示的なクロスレイヤー・インターフェースで結ぶ同期型階層的ポリシーを導入する。
- 複数の歩法(トロット、プロンク、ペース、バウンド)にわたる実行可能な関節レベル目標へコンパクトな挙動パラメータを写像する歩法条件付き低レベル制御器を開発する。
- 高レベルポリシーは希薄な地形手がかりを取り込み、実行可能な低レベルコマンドへ変換するデコーダに渡すコンパクトな挙動パラメータベクターを出力する。
- 低レベルの実行者を固定化した状態で強化学習を用いて歩法条件付きの locomotion と堅牢なコマンド追従を学習させる。
- 高レベルポリシーは凍結済みの低レベル実行器の上で強化学習を用いて訓練する。
- 環境難易度および撥乱範囲を拡張する性能駆動型の進行に基づく構造化カリキュラムを採用し、地形間のロバスト性を改善する。
実験結果
リサーチクエスチョン
- RQ1明示的なクロスレイヤー・インターフェースを備えた階層ポリシーは、密な地形再構成なしで長期的なナビゲーション性能を混合地形で改善できるか。
- RQ2歩法条件付き低レベル制御はモード切替を滑らかにし、撥乱耐性を高めつつタスクレベルでの学習が可能か。
- RQ3性能駆動型カリキュラムは訓練効率と地形間の一般化にどのように影響するか。
主な発見
- hardest terrain levels(レベル6–10)での平均成功率87.4%、5つの地形ファミリで。
- TDGC は難易度の高い地形で基盤ポリシーよりも滑らかで一貫した軌道と目標指向の挙動を生み出す。
- 階層型コントローラはタスクから歩法への決定を解釈可能にし、例として階段昇降にはトロット、ギャップ越えにはバウンドを選択する等、診断可能でデプロイ可能な挙動を生む。
- 構造化カリキュラム訓練とクロスレイヤー・インターフェースを通じて、分布外地形に対するロバスト性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。