QUICK REVIEW

[論文レビュー] Policies Modulating Trajectory Generators

Atıl Işçen, Ken Caluwaerts|arXiv (Cornell University)|Oct 7, 2019

Robotic Locomotion and Control被引用数 38

ひとこと要約

PMTGは学習済みポリシーとパラメータ化されたTrajectory Generatorを組み合わせ、TGパラメータをリアルタイムで変調する単純なポリシーを用いて、記憶を活用した可制御な locomotion および他の周期的行動を実現します。アプローチは合成制御と四足歩行で検証され、シミュレータから現実への移行に成功しました。

ABSTRACT

We propose an architecture for learning complex controllable behaviors by having simple Policies Modulate Trajectory Generators (PMTG), a powerful combination that can provide both memory and prior knowledge to the controller. The result is a flexible architecture that is applicable to a class of problems with periodic motion for which one has an insight into the class of trajectories that might lead to a desired behavior. We illustrate the basics of our architecture using a synthetic control problem, then go on to learn speed-controlled locomotion for a quadrupedal robot by using Deep Reinforcement Learning and Evolutionary Strategies. We demonstrate that a simple linear policy, when paired with a parametric Trajectory Generator for quadrupedal gaits, can induce walking behaviors with controllable speed from 4-dimensional IMU observations alone, and can be learned in under 1000 rollouts. We also transfer these policies to a real robot and show locomotion with controllable forward velocity.

研究の動機と目的

周期的軌道に関する事前知識を学習ベースの制御に取り込み、ポリシー最適化を簡素化する。
状態を持つTGとフィードフォワードポリシーを結合して、記憶を強化したシンプルなコントローラを実現する。
TGパラメータを変調する線形ポリシーが、4D IMU観測だけを用いて可制御なロコモーションを達成できることを示す。
PMTGはRLまたはEvolutionary Strategiesで訓練でき、シミュレーションから実機の四足歩行ロボットへ移行できることを示す。

提案手法

Trajectory Generator (TG)を、内部状態と外部パラメータに基づいてアクションを出力する、状態を持つパラメータ化モジュールと定義する。
学習済みポリシーを用いてTGパラメータを変調し、必要に応じてTG出力を補正する。ポリシーはTGの状態と環境信号を観測する。
各時刻においてロボットの行動を u = u_tg + u_fb と結合する。ポリシーは周波数、振幅、歩行高度などの TGパラメータに影響を与えることができる。
強化学習（PPO）またはEvolutionary Strategies（ARS）で訓練し、TGを制御するために線形を含む単純なフィードフォワードポリシーを使用する。
TGを用いた脚軌道を活用する、合成2D制御タスクと四足歩行タスク（歩行と跳躍）での例示。
TGを介した記憶の形態を含め、ポリシーを軽量に保ちながらも複雑な挙動を実現できるようにする。

実験結果

リサーチクエスチョン

RQ1単純なフィードフォワードポリシーが、パラメータ化されたTGを効果的に制御して、可制御な周期的ロコモーションや他の循環的挙動を達成できるか。
RQ2TGを介して事前の軌道知識を統合することで、データ要件を減らし、ロコモーションタスクの学習効率を向上させられるか。
RQ3最小限の観測（IMUのみ）と単純なポリシーを用いて、PMTGが四足歩行のシミュレーションから現実への移行を可能にするか。
RQ4記憶を伴う制御可能な挙動学習において、PMTGは純粋に反応的なポリシーと比較してどうか。

主な発見

TGと組み合わせた場合、PMTGは単純な線形ポリシーで可制御なロコモーションの学習を可能にする。
学習はデータ効率が高く、いくつかの実験では1000回未満のロールアウトで良好なポリシーを達成している。
ポリシーはTGの周波数と振幅を変調して速度と歩容パターンを適応させ、TG出力の補正を適用することもある。
PMTGを用いない反応的なベースライン（Vanilla PPO/ES）は、同じタスクで効果的な挙動を学習するのに苦労する。
PMTGで訓練されたポリシーは、シミュレーションからMinitaurロボットへ移行し、実世界での適用性を示している。
PMTGはTGに記憶を提供させ、単純なポリシーで複雑で堅牢な挙動を学習できるようにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。