QUICK REVIEW

[論文レビュー] Advanced Skills by Learning Locomotion and Local Navigation End-to-End

Nikita Rudin, David Hoeller|arXiv (Cornell University)|Jan 1, 2022

Robotic Locomotion and Control被引用数 2

ひとこと要約

本論文では、歩行ロボットにおけるエンド・ツー・エンドの深層強化学習を提案し、速度指令の追従ではなく、時間制限内にターゲットに到達することを直接最適化することで、片持ち歩行と局所的ナビゲーションを同時に学習する単一のポリシーを訓練する。このアプローチにより、実際の四足歩行ロボット上で、より敏捷でエネルギー効率が良く、自然な動き（例：ダイナミックジャンプや登攀）を実現し、従来の速度追従ベースラインと比較して、困難な地形での成功確率が向上した。

ABSTRACT

The common approach for local navigation on challenging environments with legged robots requires path planning, path following and locomotion, which usually requires a locomotion control policy that accurately tracks a commanded velocity. However, by breaking down the navigation problem into these sub-tasks, we limit the robot's capabilities since the individual tasks do not consider the full solution space. In this work, we propose to solve the complete problem by training an end-to-end policy with deep reinforcement learning. Instead of continuously tracking a precomputed path, the robot needs to reach a target position within a provided time. The task's success is only evaluated at the end of an episode, meaning that the policy does not need to reach the target as fast as possible. It is free to select its path and the locomotion gait. Training a policy in this way opens up a larger set of possible solutions, which allows the robot to learn more complex behaviors. We compare our approach to velocity tracking and additionally show that the time dependence of the task reward is critical to successfully learn these new behaviors. Finally, we demonstrate the successful deployment of policies on a real quadrupedal robot. The robot is able to cross challenging terrains, which were not possible previously, while using a more energy-efficient gait and achieving a higher success rate.

研究の動機と目的

従来のナビゲーションパイプラインが、歩行とナビゲーションを分離し、硬直的な制約を課えるという限界を克服すること。
速度追従の制約を排除することで、ジャンプ、登攀、適応的歩行選択といった複雑なダイナミックな行動を学習可能にする。
包括的な解空間を探索できる統合ポリシーを訓練することで、エネルギー効率の向上と困難な地形での成功確率の向上を図ること。
四足歩行ロボット（ANYmal）における実世界への展開を示し、多様で困難な環境に一般化できることを実証すること。
最終報酬信号の時間依存的形状づけが、複雑な行動の学習に不可欠であることを示すこと。

提案手法

状態観測値を行動命令にマッピングする単一のディープ強化学習ポリシーをエンド・ツー・エンドで訓練し、時間制限内にターゲット位置に到達することを目的とする。
各エピソードの終了時にのみタスク報酬を定義し、最終的なターゲットまでの距離と所要時間に基づく。速度追従の連続的報酬ではなく、これを行う。
距離と時間をペナルティとする密度の高い、スパarsな、および形状づけられた報酬を用い、学習を導くために時間依存の形状づけ成分を導入する。
訓練の安定性を向上させるために、増加するターゲット距離と地形の複雑さを伴うカリキュラム学習スケジュールを実装する。
学習済みアクチュエータモデルを用いて直列ばねアクチュエータをシミュレートし、物理的限界に合わせてトルクをクリッピングすることで、実機ANYmalにポリシーをデプロイする。
デプロイ中はジョイスティックまたは位置ターゲットでロボットを制御し、この入力に特化した微調整なしに、ポリシーが変化する命令に自然に応答することを実現する。

実験結果

リサーチクエスチョン

RQ1ナビゲーションと歩行を統合してエンド・ツー・エンドで訓練した単一ポリシーは、従来の速度追従アプローチと比較して、より敏捷で適応的な行動を実現できるか？
RQ2最終報酬の時間依存的形状づけは、歩行ロボットにおける複雑な行動の出現にどのように影響するか？
RQ3シミュレーションで訓練したポリシーは、ジャンプや登攀といったダイナミックな動きを含む実世界タスクに一般化可能か？
RQ4速度追従の制約を排除することで、ポリシーはよりエネルギー効率の良い歩行パターンを発見し、困難な地形での成功確率を向上させられるか？
RQ5なぜポリシーは片方向にのみ歩行するよう学習してしまうのか？また、この方向性バイアスはどのように是正できるか？

主な発見

エンド・ツー・エンドポリシーは、階段、0.55 mのボックス、0.6 mのギャップといった困難な地形で、速度追従ベースラインと比較してより高い成功確率を達成した。
ロボットはギャップを飛び越えるジャンプや、高速で階段を登攀するダイナミックな動きを成功裏に実行し、速度追従では実現できなかった行動を示した。
ポリシーは、従来の速度追従アプローチで使われる標準的なトロットとは異なる、よりエネルギー効率の良い歩行パターンを学習し、より自然で生物学的（有機的）な運動を示した。
時間依存の報酬形状づけは、成功した訓練に不可欠であった。これなしでは、ポリシーは複雑な行動を学習できなかった。
一般化に成功したものの、ポリシーは方向性バイアスを示し、損失関数の局所的最小値に陥ったために、片方向にのみ歩行するよう学習した。
学習済みアクチュエータモデルとトルククリッピングを用いた実機デプロイが可能となったが、複雑なタスクではセンシングと状態推定が依然として制限要因であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。