QUICK REVIEW

[論文レビュー] Generalization of Reinforcement Learners with Working and Episodic Memory

Meire Fortunato, Melissa Tan|arXiv (Cornell University)|Oct 29, 2019

Reinforcement Learning in Robotics被引用数 28

ひとこと要約

この論文は、作業記憶およびエピソード記憶システムにおける一般化を評価するための13の記憶負荷の高い強化学習タスクで構成されるベンチマークスイートを導入する。本論文では、作業記憶、エピソード記憶、および対照的表現学習損失を統合したメモリリコールエージェント（MRA）を提案し、両方の記憶タイプが相乗的に作用することで、分布シフト下でも一般化性能が向上することを示している。

ABSTRACT

Memory is an important aspect of intelligence and plays a role in many deep reinforcement learning models. However, little progress has been made in understanding when specific memory systems help more than others and how well they generalize. The field also has yet to see a prevalent consistent and rigorous approach for evaluating agent performance on holdout data. In this paper, we aim to develop a comprehensive methodology to test different kinds of memory in an agent and assess how well the agent can apply what it learns in training to a holdout set that differs from the training set along dimensions that we suggest are relevant for evaluating memory-specific generalization. To that end, we first construct a diverse set of memory tasks that allow us to evaluate test-time generalization across multiple dimensions. Second, we develop and perform multiple ablations on an agent architecture that combines multiple memory systems, observe its baseline models, and investigate its performance against the task suite.

研究の動機と目的

記憶に基づく一般化の評価のための厳密で一貫性のある手法を開発すること。
作業記憶およびエピソード記憶システムが、分布シフトに伴う一般化に、いつ、どのように寄与するかを特定すること。
スケール、オブジェクトの同一性、環境構造の面でトレーニングデータとは異なるホールドアウトタスクにおけるエージェントのパフォーマンスをベンチマークすること。
表現学習および信用配分の役割が、長期記憶一般化を可能にする仕組みを調査すること。
認知的に関連する次元に沿ったトレーニング-ホールドアウト分割を用いて、記憶拡張型強化学習エージェントのための標準化された評価フレームワークを提供すること。

提案手法

PsychLabおよびDMLabから抽出され、Unity 3Dで構築された13のタスクからなる多様なスイートを設計。トレーニング-ホールドアウト分割を用い、オブジェクトの同一性、環境スケール、タスク構造の面で変動を加え、記憶一般化をテストする。
トランスフォーマーに基づくコントローラ（作業記憶）、k近傍法による検索を備えた外部エピソード記憶モジュール、および対照的表現損失を統合したハイブリッドアーキテクチャであるメモリリコールエージェント（MRA）を開発。
画像、行動、報酬の再構築に共通する損失を重み付けして組み合わせたマルチタスク対照的損失（L_REC）を適用し、タスク間で共通で強固な表現を促進する。
時間遡及によるバックプロパゲーションとアンロールドトレーニングを適用し、長期間にわたる信用配分と記憶アクセスを可能にする。
モデル間の公平な比較を確保するため、ハイパーパramータを固定し、PsychLabタスクでのみ系統的なチューニングを実施し、他のタスクでは最小限のチューニングにとどめる。
トレーニングタスクおよびホールドアウトタスクの両方でパフォーマンスを評価し、分布シフトに伴う性能低下を測定することで一般化を評価する。

実験結果

リサーチクエスチョン

RQ1作業記憶およびエピソード記憶システムが、強化学習エージェントにおける一般化に、個別および統合的にどのように寄与するか。
RQ2特定のオブジェクトおよび環境セットでトレーニングされたエージェントが、オブジェクト同一性や環境スケールが変更されたホールドアウトタスクに、どの程度一般化できるか。
RQ3対照的表現学習は、記憶拡張型強化学習エージェントの一般化を向上させるか。また、エピソード記憶と相乗効果をもたらすか。
RQ4記憶シフトが生じるホールドアウトデータに対して、記憶拡張型エージェントのパフォーマンスは、トレーニングデータと比較してどの程度低下するか。
RQ5統一されたエージェントアーキテクチャが、作業記憶、エピソード記憶、表現学習を効果的に統合し、多様な記憶タスクでベースラインを上回るパフォーマンスを達成できるか。

主な発見

メモリリコールエージェント（MRA）は、全タスクスイートにおいてベースラインモデルを上回るパフォーマンスを示し、作業記憶およびエピソード記憶コンponentsの統合の有効性を実証した。
エピソード記憶は、特に長時間にわたる推論や未確認のゴールへのナビゲーションを要するタスクにおいて、データ効率および一般化性能を顕著に向上させる。
共通の画像、行動、報酬再構築損失を用いた対照的表現学習（L_REC）は、視覚的または構造的変動が大きいタスクにおいて一般化性能を向上させる。
エピソード記憶と対照的表現学習の組み合わせは、相乗的なパフォーマンス向上をもたらし、単独で使用する場合よりも一般化誤差をより顕著に低減する。
改善は見られるものの、どのモデルもすべてのホールドアウトタスクで完全に一般化できない。特に複雑なタスクや構造的シフトが生じるタスクでは、パフォーマンス低下が顕著に増加する。
MRAモデルは、手続き的マップや推移的推論タスクなど、多様な環境においても頑健なパフォーマンスを示し、ベースラインモデルが一般化に失敗する状況でも優れた性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。