[論文レビュー] Iterative Reinforcement Learning Based Design of Dynamic Locomotion Skills for Cassie
DASSベースの反復設計を提示し、監督付き模倣とポリシー勾配強化学習を組み合わせて、Cassie向けの迅速で頑健な可変速度歩行ポリシーを実現し、シミュレーションからハードウェアへの移行をダイナミクスランダム化なしに可能にする。
Deep reinforcement learning (DRL) is a promising approach for developing legged locomotion skills. However, the iterative design process that is inevitable in practice is poorly supported by the default methodology. It is difficult to predict the outcomes of changes made to the reward functions, policy architectures, and the set of tasks being trained on. In this paper, we propose a practical method that allows the reward function to be fully redefined on each successive design iteration while limiting the deviation from the previous iteration. We characterize policies via sets of Deterministic Action Stochastic State (DASS) tuples, which represent the deterministic policy state-action pairs as sampled from the states visited by the trained stochastic policy. New policies are trained using a policy gradient algorithm which then mixes RL-based policy gradients with gradient updates defined by the DASS tuples. The tuples also allow for robust policy distillation to new network architectures. We demonstrate the effectiveness of this iterative-design approach on the bipedal robot Cassie, achieving stable walking with different gait styles at various speeds. We demonstrate the successful transfer of policies learned in simulation to the physical robot without any dynamics randomization, and that variable-speed walking policies for the physical robot can be represented by a small dataset of 5-10k tuples.
研究の動機と目的
- 各反復で報酬関数を完全に再定義できる一方で、前のポリシーからの逸脱を制限する、反復的なDRL設計プロセスを可能にする。
- 少数のサンプルからポリシーを再構築・蒸留するためのDeterministic Action Stochastic State (DASS) タプルを導入する。
- DASSからの模倣学習をソフト制約を介してRLと組み合わせ、専門家の行動に近づけつつ新しい目的へポリシーを洗練させる。
- シミュレーションで訓練したポリシーをダイナミクスランダム化なしで物理的Cassieロボットへ転送することを示す。
- ロバスト性を損なうことなく、より小さなネットワークへのポリシー圧縮と蒸留を示す。
提案手法
- DASSを、専門家の行動分布下で確率的ポリシーが訪問した状態から収集された (state, expert mean action) のペアのデータセットとして定義する。
- 限られたサンプルからポリシーを再現するために、教師あり学習 J_sp(θ)=E_{s∼D}[(m_θ(s)−m_e(s))^2] を解く。
- 総目的 J_total = J_rl − w J_sp を 定式化し、模倣データでRLの更新をソフトに制約する。
- θ_{t+1} = θ_t + α(∇_θ J_rl − w ∇_θ J_sp) を用いて、ポリシー勾配と教師あり学習をブレンドして更新する。
- 学習中のノイズ注入と蒸留の容易さのため、固定共分散の大きなガウス政策を使用する。
- 高忠実度Cassieシミュレータ(MuJoCo)でProximal Policy Optimizationを用いたポリシー訓練を実証し、その後ダイナミクスランダム化なしで物理ロボットへ転送する。
実験結果
リサーチクエスチョン
- RQ1 DASSデータ収集を伴う反復的RL設計フレームワークは、設計の各反復で報酬関数を再定義しつつ、前ポリシーからの逸脱を制限することをサポートできるか。
- RQ2 DASSベースの模倣をポリシー勾配RLと組み合わせて、頑健で可変速度の移動ポリシーを生み出すのに、どの程度効果的か。
- RQ3 シミュレーションで学習したポリシーをダイナミクスランダム化なしでCassieに転送すると、複数の歩法と速度にわたって安定した歩行を得られるか。
- RQ4 小さなネットワークへ移行する際、ロバスト性を維持するうえでポリシー圧縮と蒸留の役割は何か。
- RQ5 複数の専門的ポリシーを、複数の移動スタイルを可能にする単一のポリシーへ蒸留できるか。
主な発見
- シミュレーションで学習し、ダイナミクスランダム化なしでハードウェアへ転送したポリシーを用いて、Cassieで異なる歩法スタイルと速度で安定した歩行を実証した。
- 小規模なDASSデータセット(5–10k tuples)でハードウェア上の頑健な可変速度歩行ポリシーを再構築できる。
- RLとDASSベースの模倣を組み合わせることで、前ポリシーに近いまま新しい報酬関数を探索でき、忘却を避けられる。
- 大きなニューラルネットワークはRL学習を加速し、より頑健なポリシーを生み出す。蒸留されたポリシーは、(例えば16×16から64×64の隠れ層)など、より小さなネットワークへ圧縮してもハードウェア上で同等の性能を発揮できる。
- 報酬を変更する反復設計は、腰部の滑らかな動きと速度を跨ぐ安定した踏み出しを生み出し、前進・後退歩行を含み、ハードウェア上の未知の乱れにも対処できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。