Skip to main content
QUICK REVIEW

[論文レビュー] Control of Memory, Active Perception, and Action in Minecraft

Junhyuk Oh, Valliappa Chockalingam|arXiv (Cornell University)|May 30, 2016
Reinforcement Learning in Robotics参考文献 38被引用数 172
ひとこと要約

本論文は部分観測、遅延報酬、能動的知覚を検証する Minecraft タスクで評価されたメモリベース深層強化学習アーキテクチャを紹介し、標準的な DRL ベースラインより見たことのないマップへの一般化を改善することを示している。

ABSTRACT

In this paper, we introduce a new set of reinforcement learning (RL) tasks in Minecraft (a flexible 3D world). We then use these tasks to systematically compare and contrast existing deep reinforcement learning (DRL) architectures with our new memory-based DRL architectures. These tasks are designed to emphasize, in a controllable manner, issues that pose challenges for RL methods including partial observability (due to first-person visual observations), delayed rewards, high-dimensional visual observations, and the need to use active perception in a correct manner so as to perform well in the tasks. While these tasks are conceptually simple to describe, by virtue of having all of these challenges simultaneously they are difficult for current DRL architectures. Additionally, we evaluate the generalization performance of the architectures on environments not used during training. The experimental results show that our new architectures generalize to unseen environments better than existing DRL architectures.

研究の動機と目的

  • 制御可能な3D世界(Minecraft)で強化学習を動機づけ、部分観測、遅延報酬、高次元の知覚、そして能動的知覚を強調する。
  • 設計された認知タスク上で、既存の DRL アーキテクチャを新しい memory-based DRL アーキテクチャと体系的に比較する。
  • 未知またはより大きいマップトポロジーに対するアーキテクチャの一般化性能を評価する。
  • 文脈依存のメモリ復元を活用して、memory-based アーキテクチャが unseen maps に対してより良い一般化を示すことを示す。

提案手法

  • 観測をCNNで固定長の特徴ベクトルにエンコードする。
  • 最近の観測を外部メモリにキー/値ブロックとして格納する。
  • コンテキストベクトルに条件付けられたソフトアテンションでメモリを検索する。
  • 3つの変種でコンテキストベクトルを構築: MQN(フィードフォワード)、RMQN(LSTMベース)、FRMQN(メモリフィードバック付きLSTM)。
  • コンテキストと取得したメモリを組み合わせたMLPを用いて行動価値を推定する。

実験結果

リサーチクエスチョン

  • RQ1メモリ拡張DRLアーキテクチャは、Minecraftタスクにおいて部分観測、能動的知覚、メモリベース推論を従来のDQN/DRQNよりもよりうまく扱えるか。
  • RQ2文脈依存のメモリ取得とメモリフィードバックは、未知またはより大きいマップへの一般化を改善するか。
  • RQ3指標、パターン、連続的目標の記憶を要するタスクで、提案アーキテクチャはどのように性能を発揮するか。
  • RQ4メモリベースモデルは、標準的なベースラインよりも大きいまたは異なるマップトポロジーへより良く外挿するか。

主な発見

  • メモリベースのアーキテクチャ(MQN、RMQN、FRMQN)は、認知的なMinecraftタスクで一般にDQNおよびDRQNを上回る。
  • FRMQNは、未見マップへの一般化をタスク全体で最も強く達成し、特に指示子を用いたパターンマッチングと連続的目標で顕著。
  • メモリ検索は選択的かつ文脈に応じて使用され、例えば FRMQN は意思決定に関連する場合にのみ指示子情報を取得する。
  • RMQNとFRMQNは、未見のマップに対してDRQNより一般化性能が向上する一方、DRQNは部分観測下で長期依存性に苦戦する。
  • タスクを跨いで、部分観測が増加するとメモリ拡張モデルとベースラインのギャップが広がる(例: 指示子と目標の距離が大きいほど)。
  • 定性的分析は、意思決定のポイントで関連する観測にメモリ注意が集中することを示し、能動的知覚の学習戦略を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。