QUICK REVIEW

[論文レビュー] The Intentional Unintentional Agent: Learning to Solve Many Continuous Control Tasks Simultaneously

Serkan Cabi, Sergio Gómez Colmenarejo|arXiv (Cornell University)|Jul 11, 2017

Reinforcement Learning in Robotics参考文献 31被引用数 18

ひとこと要約

本論文では、マルチヘッドアクタ・クリティックフレームワーク内で共有表現を用いて、複数の連続的制御方策を同時に学習する、深層強化学習アーキテクチャである意図的でない（IU）エージェントを紹介する。主な（意図的）タスクに注力して学習する一方で、他のタスク（意図的でない）をオフポリシーで学習することで、IUエージェントは学習を加速し、特に報酬が疎で接触が豊富な高次元環境において、標準的なDDPGが失敗する複雑なタスクを解決できる。

ABSTRACT

This paper introduces the Intentional Unintentional (IU) agent. This agent endows the deep deterministic policy gradients (DDPG) agent for continuous control with the ability to solve several tasks simultaneously. Learning to solve many tasks simultaneously has been a long-standing, core goal of artificial intelligence, inspired by infant development and motivated by the desire to build flexible robot manipulators capable of many diverse behaviours. We show that the IU agent not only learns to solve many tasks simultaneously but it also learns faster than agents that target a single task at-a-time. In some cases, where the single task DDPG method completely fails, the IU agent successfully solves the task. To demonstrate this, we build a playroom environment using the MuJoCo physics engine, and introduce a grounded formal language to automatically generate tasks.

研究の動機と目的

乳児発達にインspiredされ、集中してタスクを実行する中で複数のスキルを偶然に学ぶことから着想を得て、同時に多数の連続的制御タスクを学習できる深層強化学習エージェントの開発。
物理ベースの環境で自動的に生成される多次元的で意味的に根拠のある報酬関数のストリームを活用することで、連続的制御における報酬の疎らさの課題を克服すること。
特に、偶然に学習されるタスクを含めた複数のタスクを同時に学習することで、単一タスク学習と比較して学習の加速とサンプル効率の向上が図られるかどうかを検証すること。
将来の意図的タスクに、意図的でない学習済み方策を再利用可能にする。柔軟なロボット操作のための再利用可能な制御方策のライブラリの構築を可能にする。
カリキュラム学習の役割を多タスク強化学習において調査する。特に、行動方策として最も難しいタスクを選択することが、経験リプレイと探索を最適化するのかどうかを検討する。

提案手法

同じ低レベルの表現を共有し、出力ヘッドは非共有とするマルチヘッドアクタネットワークを提案。各ヘッドは異なる制御タスクの別々の方策を表す。
共有観測、マルチヘッドクリティックネットワークを採用。各タスクの状態行動価値関数を計算し、各方策ごとに個別のQ値ヘッドを設ける。
学習に決定的ポリシー勾配（DDPG）を採用。エージェントは1つの方策（意図的タスク）に従って行動しながら、リプレイメモリを用いて他のすべての方策をオフポリシーで更新する。
自動的に多様で意味的に意味のある制御タスク（例：赤いブロックを青いブロックの東に移動）を生成する、意味的に根拠のある形式言語を導入。
重力、剛体、シンプルな身体を持つエージェントを備えた物理環境を設計。固定された物理法則とボディ構造を維持することで、継続的かつ転送可能な学習を可能にする。
優先順位付きサンプリングを用いた経験リプレイを採用。行動方策（意図的タスク）が、すべての他の方策をオフポリシーで更新する際に使用する経験の分布を規定する。

実験結果

リサーチクエスチョン

RQ11つのタスクに注力しながら、他のタスクを偶然に学習することで、エージェントが複数の連続的制御タスクを同時に学習できるか。また、これにより学習速度と成功確率が向上するか。
RQ2共有表現とリプレイバッファを用いて複数のタスクをオフポリシーで学習することで、単一タスクのDDPGと比較して、サンプル効率とハードな探索タスクにおけるパフォーマンスが向上するか。
RQ3意図的でない学習済み方策を、新しい意図的タスクに効果的に再利用できるか。また、これによりロボットにおける生涯学習と転送学習がどのように支援されるか。
RQ4多タスク強化学習において、カリキュラム学習として最も難しいタスクを行動方策として選択することが最適であるか。また、これはなぜランダム選択や適応的ポリシー選択を上回るのか。
RQ5タスクのネスティング（例：1つのブロックを動かすことは2つを動かすための前提となる）が、複雑なマルチボディ制御シナリオにおけるIUエージェントの学習ダイナミクスと成功に与える影響は何か。

主な発見

標準的なDDPGエージェントが報酬が疎らで探索が困難なため完全に失敗する、3つ以上のブロックを同時に動かすような複雑な連続的制御タスクを、IUエージェントは正常に解決できた。
複数のタスクを同時に学習することで訓練が加速する。エージェントが学習するタスクが増えるほど、すべての方策（特に主な（意図的）タスク）の収束が速くなる。
エージェントは1つの行動方策に従いながら、すべてのタスクをオフポリシーで学習しており、複数のスキルを偶然に学習することが、将来の用途に活用可能であることを示している。
最も難しいタスクを行動方策として選択することで、ランダムまたは適応的ポリシー選択を上回る性能を発揮した。これは、複雑な状態空間を探索するために不可欠な豊富で多様な経験がリプレイバッファに蓄積されるからである。
ネストされたタスク構造（例：1つのブロックを動かすことは2つを動かすための前提）を持つ環境では、IUエージェントがタスクの階層的性質を活用して、全体の学習効率を向上させた。
このアーキテクチャにより、学習済み方策を新しいタスクに再利用可能であり、柔軟なロボット操作のための再利用可能な制御方策のライブラリの構築への道筋が示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。