QUICK REVIEW

[論文レビュー] Memory Augmented Control Networks

Arbaaz Khan, Clark Zhang|arXiv (Cornell University)|Sep 17, 2017

Reinforcement Learning in Robotics参考文献 20被引用数 38

ひとこと要約

本稿では、部分的に観察可能な状態下におけるスパarsな報酬環境において、計画を局所的およびグローバルなレベルに分割することで、スパース報酬下での部分観察可能な経路計画を解決するためのメモリ拡張制御ネットワーク（MACN）を提案する。微分可能メモリネットワークと局所最適化された方策を組み合わせることで、MACNは未学習の環境に対しても堅牢な一般化を達成し、高次元の状態空間および行動空間を有する複雑なグリッドワールドタスクにおいて、標準的なメモリ拡張型およびLSTMベースのモデルを上回る性能を発揮する。

ABSTRACT

Planning problems in partially observable environments cannot be solved directly with convolutional networks and require some form of memory. But, even memory networks with sophisticated addressing schemes are unable to learn intelligent reasoning satisfactorily due to the complexity of simultaneously learning to access memory and plan. To mitigate these challenges we introduce the Memory Augmented Control Network (MACN). The proposed network architecture consists of three main parts. The first part uses convolutions to extract features and the second part uses a neural network-based planning module to pre-plan in the environment. The third part uses a network controller that learns to store those specific instances of past information that are necessary for planning. The performance of the network is evaluated in discrete grid world environments for path planning in the presence of simple and complex obstacles. We show that our network learns to plan and can generalize to new environments.

研究の動機と目的

スパース報酬下で、標準的なディープネットワークが記憶能力と計画能力に欠けるため、部分観察可能な環境における最適方策の学習に課題が生じる状況に対処すること。
2次元マップの明示的構築を避けることで、非グリッドや非射影可能な環境への適用を可能にし、離散的および連続的制御をサポートする。
微分可能メモリ機構を用いて局所的計画とグローバル方策学習を分離することで、スケーラブルで汎用的なアーキテクチャを設計すること。
訓練中に見未曾見の環境や複雑な障害物構成に対して、モデルの一般化能力を評価すること。
モジュラーで階層的な制御構造を用いて、高次元の状態空間および行動空間における効果的な計画を可能にすること。

提案手法

MACNは階層的アーキテクチャを採用する：局所的計画モジュールは、局所的に観測された環境特徴に基づいて方策を計算する。一方、グローバルコントローラは微分可能メモリネットワークを用いて、環境全体の信念を維持する。
メモリネットワークは、学習可能な読込および書込操作を有する微分可能ニューラルコンピュータ（DNC）として実装され、訪問済みの状態や障害物に関する情報を格納・取得可能である。
局所的方策は、局所的観測に価値反復ネットワーク（VIN）を適用することで計算され、近隣の状態のコンパクトで特徴豊富な表現が得られる。
グローバルコントローラは、局所的方策とメモリによる環境状態推定値を組み合わせて行動を生成する。この際、関連するメモリ領域に注目するためのソフトアテンション機構が用いられる。
全ネットワークは強化学習を用いてエンドツーエンドで訓練され、スパース報酬下でポリシー勾配法によりグローバル方策を最適化する。
明示的な2次元マップの構築を回避することで、非グリッドや非射影可能な環境への応用が可能となり、離散的および連続的制御を両立できる。

実験結果

リサーチクエスチョン

RQ1メモリ拡張型ディープ強化学習モデルは、スパース報酬下の部分観察可能な環境で、効果的な計画方策を学習できるか？
RQ2局所的およびグローバル的計画の階層的分解は、エンドツーエンドモデルと比較して、サンプル効率および一般化性能をどのように向上させるか？
RQ3訓練中に見未曾見の環境、特に複雑な障害物やトンネル構造を有する環境に対して、モデルはどの程度一般化できるか？
RQ4微分可能メモリ機構の使用は、計画タスクにおける長期記憶保持および推論能力をどのように強化するか？
RQ5高次元の状態空間および行動空間において、性能劣化を伴わずにモデルはスケーリング可能か？

主な発見

MACNは、単純な障害物を持つグリッドワールド（G）では100%のテスト成功率を達成し、20ユニットの長さのトンネル環境（L）でも100%の成功率を示した。これは、LSTMのみを用いたMACNや標準的なLSTMモデルを上回る性能である。
複雑な障害物を有する環境では、平均経路長比が1.07にまで低下した（A*の比は1.0）。これは、近似的最適性能を示している。
モデルは、訓練時とは異なる環境、たとえばより長いトンネル（例：40ユニット）や新しい障害物配置に対しても、効果的に一般化しており、訓練分布を超えた堅牢な一般化能力を示している。
MACNは連続的制御タスクにおいても優れた性能を示しており、離散的グリッドワールドにとどまらない応用可能性を示している。
アブレーションスタディの結果、局所的方策計算とメモリベースのグローバル計画という階層的設計が、学習の安定性および最終的な性能を顕著に向上させていることが確認された。
複数のランダムシードおよび環境において、モデルは一貫した性能を維持しており、訓練の信頼性およびロバストネスが強いことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。