QUICK REVIEW

[論文レビュー] Strategic Attentive Writer for Learning Macro-Actions

Alexander -, Vezhnevets|arXiv (Cornell University)|Jun 15, 2016

Artificial Intelligence in Games参考文献 20被引用数 80

ひとこと要約

STRAWは、環境の報酬に基づいて再計画の意思決定と行動シーケンスを学習することで、強化学習においてエンドツーエンドで時間的に抽象化されたマクロアクションを学習する深層再帰ニューラルネットワークである。複数ステップの行動計画を維持・更新することで、長期間にわたる計画を必要とするアタリゲーム（例：Ms. Pacman や Frostbite）におけるパフォーマンスを向上させ、構造的な探索と効率的な計算を可能にする。

ABSTRACT

We present a novel deep recurrent neural network architecture that learns to build implicit plans in an end-to-end manner by purely interacting with an environment in reinforcement learning setting. The network builds an internal plan, which is continuously updated upon observation of the next input from the environment. It can also partition this internal representation into contiguous sub- sequences by learning for how long the plan can be committed to - i.e. followed without re-planing. Combining these properties, the proposed model, dubbed STRategic Attentive Writer (STRAW) can learn high-level, temporally abstracted macro- actions of varying lengths that are solely learnt from data without any prior information. These macro-actions enable both structured exploration and economic computation. We experimentally demonstrate that STRAW delivers strong improvements on several ATARI games by employing temporally extended planning strategies (e.g. Ms. Pacman and Frostbite). It is at the same time a general algorithm that can be applied on any sequence data. To that end, we also show that when trained on text prediction task, STRAW naturally predicts frequent n-grams (instead of macro-actions), demonstrating the generality of the approach.

研究の動機と目的

事前に知識や手作業で定義された部分目標なしに、原始的な環境相互作用から高レベルで時間的に拡張された行動（マクロアクション）を学習する深層学習アーキテクチャを開発すること。
環境フィードバックに基づいて、いつ計画にコミットするか、いつ再計画を行うかを学習することで、強化学習における構造的探索を可能にすること。
計画実行中における観測処理の延期により、計算コストを低減し、コミット段階でリソースを解放すること。
頻度の高いn-gramをマクロアクションとして学習することで、制御タスク（アタリゲーム）とシーケンス予測（テキスト）の両方のタスクに一般化できること。
報酬信号のみから時間的抽象化を暗黙的に捉える、新しいアーキテクチャを用いてマクロアクションをエンドツーエンドで学習すること。

提案手法

STRAWは二重モジュールの再帰的アーキテクチャを採用している：特徴抽出部（例：CNN）が観測を処理し、計画モジュールが複数ステップの行動計画を生成・更新する。
モデルは、再計画までの現在の行動シーケンスのコミット期間を決定するコミット計画（c_t）を維持する。
特徴抽出部と計画モジュールの間のノイズ付き通信チャネルが、時間的に長い範囲にわたり構造的なランダム性をもたらし、探索を促進する。
行動計画は、内部状態の関連部分に注目するアテンションメカニズムを介して生成され、行動シーケンスが得られる。
ネットワークは、擬似報酬や部分目標の監督なしに、環境のスパarsな報酬信号のみを用いてポリシー勾配法で訓練される。
このアーキテクチャは強化学習と教師ありシーケンス予測の両方をサポートし、頻度の高い行動パターンとしてマクロアクションが自然に出現する。

実験結果

リサーチクエスチョン

RQ1スパース報酬のみから、手作業で定義された部分目標や擬似報酬なしに、深層再帰ネットワークが時間的に抽象化されたマクロアクションをエンドツーエンドで学習できるか？
RQ2行動計画へのコミットを学習することで、強化学習における探索とサンプル効率がどのように向上するか？
RQ3障害物や脅威などの環境状態に応じて、モデルが計画の期間を動的に調整できるか？
RQ4提案されたアーキテクチャは制御タスクを超えて、テキスト予測などの他のシーケンスモデリング問題にも一般化可能か？
RQ5ノイズ付き通信による構造的探索は、学習パフォーマンスとマクロアクションの発見にどのような影響を与えるか？

主な発見

Ms. Pacman や Frostbite など長期計画を要するアタリゲームにおいて、STRAWは標準ベースラインやLSTMモデルを上回る顕著なパフォーマンス向上を達成した。
Frostbiteでは、氷の浮き島を飛び移る、魚を収穫するといった意味のある高レベル行動に対応するマクロアクションが学習されており、計画出力の可視化で確認された。
Amidarでは、STRAWが計画の期間を動的に調整する：敵が近くにいるときはマクロアクションを短縮し、道が空いていると再び長い計画を再開する。これは適応的再計画の能力を示している。
訓練過程において、モデルは計画へのコミット期間を長期間にわたり学習する。ほとんどのゲームで約200エポック後にコミットレベルが安定するが、Breakoutでは高精度が求められるため、頻繁な再計画が最適である。
アブレーションスタディの結果、再計画のタイミングを学習することは、固定または常に再計画する戦略よりも効果的であり、高次元のノイズチャネルはパフォーマンスを向上させるが、収益逓減の傾向を示した。
テキスト予測タスクで訓練した場合、STRAWは自然に頻度の高いn-gramをマクロアクションとして学習し、このアーキテクチャのシーケンスタスク全般への一般化能力を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。