QUICK REVIEW

[論文レビュー] Multi-Agent Manipulation via Locomotion using Hierarchical Sim2Real

Ofir Nachum, Michael J. Ahn|arXiv (Cornell University)|Aug 13, 2019

Reinforcement Learning in Robotics参考文献 37被引用数 37

ひとこと要約

本論文は、四足ロボットの操舵を通じた操作を実現する階層的な sim2real 学習を提案し、モジュラーな低レベルの移動ポリシーと高レベルの目標提案コントローラを組み合わせることで、ドメインランダム化を用いたリアルワールドのマルチエージェントタスクへのゼロショット転送を可能にする。

ABSTRACT

Manipulation and locomotion are closely related problems that are often studied in isolation. In this work, we study the problem of coordinating multiple mobile agents to exhibit manipulation behaviors using a reinforcement learning (RL) approach. Our method hinges on the use of hierarchical sim2real -- a simulated environment is used to learn low-level goal-reaching skills, which are then used as the action space for a high-level RL controller, also trained in simulation. The full hierarchical policy is then transferred to the real world in a zero-shot fashion. The application of domain randomization during training enables the learned behaviors to generalize to real-world settings, while the use of hierarchy provides a modular paradigm for learning and transferring increasingly complex behaviors. We evaluate our method on a number of real-world tasks, including coordinated object manipulation in a multi-agent setting. See videos at https://sites.google.com/view/manipulation-via-locomotion

研究の動機と目的

複数の脚型エージェントを協調させて操作タスクを実行するという課題を動機づけ、解決する。
低レベルのゴール到達ポリシーが移動を担当し、高レベルのポリシーが低レベルポリシーの目標を指示する、二段階の階層的RLフレームワークを提案する。
現実世界の微調整なしで堅牢な sim2real 転送を実現するため、段階的（階層的）な方法でドメインランダム化を活用する。
避避（Avoid）、ブロックを押す、2つのエージェントを協調して長いブロックを押すタスク

提案手法

低レベルポリシー pi_lo を、平面上のランダムにサンプルされた 2D ゴールへ到達させる内部報酬 r_lo（ゴールとの距離の負、補助項目（直立、方位、ボーナス）を含む）で訓練。
pi_lo を固定して高レベルポリシー pi_hi を訓練し、固定変換 h を介して低レベルゴールへマッピングする高レベルアクションを生成し、タスク固有の報酬 r_hi を用いて短期の報酬を総合する。
低レベルと高レベルの訓練で別個にドメイン乱択化を適用し、現実世界へのゼロショット転送を改善する。シミュレーションには地形を変えるためのランダムな高さ場も含める。
現実世界のロボットへ固定階層ポリシーを微調整なしでデプロイしてゼロショット転送を行い、残留ギャップを補うために高レベルのアクションにノイズを加える。
このフレームワークを三つの四足歩行タスク（Avoid、Push、Coordinate）およびマルチエージェント Coordinate タスクへ適用し、移動による協調と操作を実証する。

実験結果

リサーチクエスチョン

RQ1階層的な sim2real は、移動を介して学習された操作の堅牢なゼロショット転送を、シミュレーションから現実世界のマルチエージェントタスクへ実現できるか？
RQ2低レベルの移動と高レベルのタスク制御への学習のモジュール化は、ドメイン乱択化の要件と転送性能にどのように影響するか？
RQ3四足型操作タスクにおける実世界転送のために、各階層レベルでどのドメイン乱択化が最も有益か？
RQ4実世界で二頭の四足歩行ロボットが協調して長いブロックを目標の位置と姿勢へ押し動かすことがどの程度可能か？
RQ5これらのタスクで成功を達成する際、階層構造と高レベルの乱択化の重要性を示すアブレーションは何か？

主な発見

ドメイン乱択化を伴う階層的 sim2real を用いた移動主導の操作タスクで、ゼロショットの実世界転送が実現可能である。
階層構造は、非階層的アブレーションと比較して、Avoid、Push、Coordinate タスクの成功率を大幅に向上させる。
固定された低レベルポリシーに加えて高レベルの乱択化を導入すると、Coordinate タスクで実世界の試験において最大で 90% の成功率を達成するなど、さらなる改善をもたらす。
低レベルの乱択化、特にランダム化された高さ場を含むものは、頑健な歩行歩容には不可欠で、実世界の性能を大幅に向上させる。
高レベルの乱択化がなくても、シミュレーションでの高レベル訓練は良好なゼロショット実世界結果を達成でき、特定の高レベル乱択化を追加することで追加的改善をもたらす。
表に基づく結果は、階層的設定と非階層的設定の間に明確な性能差を示しており、スケーラブルな sim2real ドメイン乱択化のためには階層の必要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。