Skip to main content
QUICK REVIEW

[論文レビュー] Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

Tejas D. Kulkarni, Karthik Narasimhan|arXiv (Cornell University)|Apr 20, 2016
Reinforcement Learning in Robotics参考文献 48被引用数 414
ひとこと要約

本論文は h-DQN を提案する。 intrinsic goals と temporal abstraction を用いて探索を促進する二層の深層Qネットワークフレームワークであり、Montézuma’s Revenge のようなスパースで遅延報酬タスクの学習を可能にする。

ABSTRACT

Learning goal-directed behavior in environments with sparse feedback is a major challenge for reinforcement learning algorithms. The primary difficulty arises due to insufficient exploration, resulting in an agent being unable to learn robust value functions. Intrinsically motivated agents can explore new behavior for its own sake rather than to directly solve problems. Such intrinsic behaviors could eventually help the agent solve tasks posed by the environment. We present hierarchical-DQN (h-DQN), a framework to integrate hierarchical value functions, operating at different temporal scales, with intrinsically motivated deep reinforcement learning. A top-level value function learns a policy over intrinsic goals, and a lower-level function learns a policy over atomic actions to satisfy the given goals. h-DQN allows for flexible goal specifications, such as functions over entities and relations. This provides an efficient space for exploration in complicated environments. We demonstrate the strength of our approach on two problems with very sparse, delayed feedback: (1) a complex discrete stochastic decision process, and (2) the classic ATARI game `Montezuma's Revenge'.

研究の動機と目的

  • Sparseelle reward のある環境での学習に対処する。
  • temporal abstraction(オプション)を intrinsic motivation と統合して探索を導く。
  • 探索を制約するためのエンティティと関係といった構造化された空間での柔軟な目標指定を可能にする。
  • joint training を伴う二層のスケーラブルな深層RL アーキテクチャ(メインコントローラとコントローラ)を開発する。

提案手法

  • 上位のメタコントローラが intrinsic goals g を選択し、下位のコントローラが s と g に基づいて primitive actions a を選択する h-DQN を導入する。
  • 価値関数を V(s,g) で近似し、コントローラ用の Q1(s,a; 共演 with g) とメタコントローラ用の Q2(s,g) によって表現する。
  • D1 と D2 の別個の経験メモリと対応する損失関数 L1 と L2 による DQN スタイルの更新で Q1 と Q2 を学習する。
  • 目標 g に到達したとき内部 critic から提供される intrinsic rewards rt(g) と、メタコントローラの目的のための環境からの extrinsic rewards ft を用いる。
  • 二つの時間スケールで転移をモデル化する:高速転移 (s,a,g,r,s') とより遅い、目標指向の転移 (s,g,f,s') を用いて異なる時間分解能で学習する。
  • epsilon-greedy 探索を両方のコントローラで適応的アニーリングとともに採用し、 replay memories に対して確率的勾配降下法でパラメータを更新する。

実験結果

リサーチクエスチョン

  • RQ1階層的深層RLが intrinsic goals を用いることで、平坦なベースラインと比較してスパース報酬環境で学習を改善できるか。
  • RQ2 entities や relations のような構造化空間で定義された目標が探索効率とデータ効率を改善するか。
  • RQ3二層(コントローラとメタコントローラ) DQN フレームワークは Montezuma’s Revenge のような複雑なタスクにスケールするか。
  • RQ4 intrinsic 目標の学習と組み合わせが長期的な信用割り当てにどのような影響を与えるか。

主な発見

  • 離散的な確率論的決定過程において遅延した外部報酬がある場合、h-DQN アプローチは中間の重要な状態に到達する方針を見つけ、標準的な Q 学習より高い平均報酬を達成した(報告された設定では約 0.13 対 0.01)。
  • Montezuma’s Revenge では、二段階の学習によりエージェントは鍵に到達しその後扉を開くことを学習し、外部報酬を高く獲得した。素の DQN および Gorila DQN は性能が低い(引用比較で基本の DQN スコアは 0、Gorila DQN は約 4.16)。
  • 本アーキテクチャは、エンティティ/関係に対する intrinsic motivation が探索を効果的に制約し、視覚的に豊富でスパース報酬の領域で長期的な計画を支援できることを示す。
  • モデルは訓練中に処理可能な目標の意味あるカリキュラム的進行を示し、より簡単な目標のマスターから難しい目標へと段階的に習得することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。