QUICK REVIEW

[論文レビュー] One Policy to Control Them All: Shared Modular Policies for Agent-Agnostic Control

Wenlong Huang, Igor Mordatch|arXiv (Cornell University)|Jul 9, 2020

Reinforcement Learning in Robotics参考文献 36被引用数 26

ひとこと要約

本稿では、局所的なアクチュエータ制御とモジュール間のメッセージ伝達を可能にする、一貫した再利用可能なニューラルネットワークモジュールである共有モジュラー政策（SMP）を提案する。強化学習を用いて訓練されたSMPは、二足歩行、四足歩行、ホッパーなど多様な平面的エージェントの形態を制御し、再訓練やハイパーパramータチューニングなしに未学習の形態に対しても一般化を達成する。

ABSTRACT

Reinforcement learning is typically concerned with learning control policies tailored to a particular agent. We investigate whether there exists a single global policy that can generalize to control a wide variety of agent morphologies -- ones in which even dimensionality of state and action spaces changes. We propose to express this global policy as a collection of identical modular neural networks, dubbed as Shared Modular Policies (SMP), that correspond to each of the agent's actuators. Every module is only responsible for controlling its corresponding actuator and receives information from only its local sensors. In addition, messages are passed between modules, propagating information between distant modules. We show that a single modular policy can successfully generate locomotion behaviors for several planar agents with different skeletal structures such as monopod hoppers, quadrupeds, bipeds, and generalize to variants not seen during training -- a process that would normally require training and manual hyperparameter tuning for each morphology. We observe that a wide variety of drastically diverse locomotion styles across morphologies as well as centralized coordination emerges via message passing between decentralized modules purely from the reinforcement learning objective. Videos and code at https://huangwl18.github.io/modular-rl/

研究の動機と目的

顕著に異なる形態（異なる数の脚や状態/行動空間次元を含む）を持つエージェントに再利用可能な汎用的制御ポリシーの開発。
深層強化学習におけるエージェント固有のポリシー学習の限界を克服し、各形態ごとに別々の訓練とハイパーパramータチューニングを必要としないこと。
分散型でモジュラーなポリシーとメッセージ伝達が、集中型の調整なしに多様な歩行行動を統合的に解決するソリューションとして出現するかを検討すること。
訓練中に見られなかった新しい形態のエージェントに対しても、一貫したポリシーが一般化可能かどうかを調査し、ロボット制御の事前学習事前知識を可能にする。

提案手法

各アクチュエータごとに1つの同一の局所的接続されたニューラルネットワークモジュールを設け、全ポリシーをそれらの集合として表現する。各モジュールは局所的なセンサ入力のみを処理する。
学習可能なメッセージ伝達を介してモジュール間通信を可能にする：各モジュールは隣接するアクチュエータとの間でメッセージベクトルを送受信し、エージェント全体の形態にわたり情報伝達を可能にする。
メッセージ伝達が上りと下りの両方で行われる木構造のグラフとしてエージェントを構造化し、局所的相互作用からグローバルな協調が自然に出現するようにする。
全システムを標準的な方策勾配強化学習で訓練する。すべてのモジュールに共有パラメータを適用することで、モularityと一般化を強制する。
エージェントの形態を符号化し、接続されたアクチュエータ間のメッセージ伝達を促進する、グラフネットワークに類似したアーキテクチャを用いる。
複数のエージェントタイプ（二足歩行、四足歩行、モノポッド）および訓練中に見られなかった形態的変種を含む、多様なエージェント構造で性能を評価する。

実験結果

リサーチクエスチョン

RQ1異なる数の脚や状態/行動空間次元を有する多様なエージェント形態を、一貫した共有ポリシー・モジュールが制御可能か？
RQ2分散型モジュール間のメッセージ伝達が、集中型制御なしにグローバルに協調的な歩行行動を出現可能にするか？
RQ3あるセットの形態で学習したポリシーが、訓練中に見られなかった新しい形態的変種に対しても、再訓練やハイパーパramータチューニングなしに一般化可能か？
RQ4上りと下りの両方向メッセージ伝達が、多様なエージェントで複雑な協調行動を可能にする役割を果たすか？
RQ5ポリシーのアーキテクチャにおけるモularityが、異なるセンサモータ構成を持つエージェント間での一般化と再利用をどのように支援するか？

主な発見

左足をルートとして使用した場合、SMPポリシーは平均訓練報酬3709.87 ± 580.87を達成し、胴体ルートバージョン（3215.04 ± 447.82）とモノリシックベースライン（3592.70 ± 111.13）を上回った。
メッセージ伝達により、周期的かつ一貫した歩行パターンが出現した。t-SNE可視化により、胴体のメッセージが歩行サイクルと時間的に一致する周期的パターンを示した。
胴体メッセージは、下り方向のメッセージ伝達によりすべての脚からの情報を集約し、時間経過に伴いエージェントのポーズと強く相関するグローバル状態情報を捉えていた。
訓練中に見られなかった形態的変種に対しても、ポリシーは成功裏に一般化し、多様なエージェント構造にわたる強靭さと転送性を示した。
上りと下りの両方向のメッセージ伝達が、協調性を確保するために不可欠であった。アブレーションスタディでは、メッセージ伝達を除去すると性能が著しく低下した。
分散型で局所的焦点をもつにもかかわらず、学習されたメッセージ伝達により、集中型に近い協調が達成された。これは、複雑なグローバル行動が局所的でモジュラーな相互作用から出現可能であることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。