Skip to main content
QUICK REVIEW

[論文レビュー] Universal Successor Features Approximators

Diana Borsa, André Barreto|arXiv (Cornell University)|Dec 18, 2018
Reinforcement Learning in Robotics参考文献 26被引用数 24
ひとこと要約

本論文は、一般化政策改善(GPI)を用いて普遍的価値関数近似器(UVFA)と継続的特徴量を統合する、普遍的後続特徴量近似器(USFA)という新しいフレームワークを提案する。これにより、強化学習における未学習タスクへのゼロショット一般化が可能になる。価値関数、環境ダイナミクス、方策空間の構造を統合的に活用することで、複雑な3次元ナビゲーション環境において優れた転移学習性能と即時の方策評価を達成する。

ABSTRACT

The ability of a reinforcement learning (RL) agent to learn about many reward functions at the same time has many potential benefits, such as the decomposition of complex tasks into simpler ones, the exchange of information between tasks, and the reuse of skills. We focus on one aspect in particular, namely the ability to generalise to unseen tasks. Parametric generalisation relies on the interpolation power of a function approximator that is given the task description as input; one of its most common form are universal value function approximators (UVFAs). Another way to generalise to new tasks is to exploit structure in the RL problem itself. Generalised policy improvement (GPI) combines solutions of previous tasks into a policy for the unseen task; this relies on instantaneous policy evaluation of old policies under the new reward function, which is made possible through successor features (SFs). Our proposed universal successor features approximators (USFAs) combine the advantages of all of these, namely the scalability of UVFAs, the instant inference of SFs, and the strong generalisation of GPI. We discuss the challenges involved in training a USFA, its generalisation properties and demonstrate its practical benefits and transfer abilities on a large-scale domain in which the agent has to navigate in a first-person perspective three-dimensional environment.

研究の動機と目的

  • 価値関数、環境ダイナミクス、方策空間からの構造的インダクティブバイアスを統合することで、マルチタスク強化学習におけるゼロショット一般化の課題に取り組む。
  • パラメトリックな一般化(価値関数空間内)を実現するUVFAと、動的計画法による一般化(環境構造を介して)を実現するSFとGPIの両方の限界を克服するため、これらを1つのスケーラブルなアーキテクチャに統合する。
  • 方策とタスク表現を分離することで、多数のタスクにわたる効率的な転移学習を可能にするとともに、GPIによる即時の方策評価を維持する。
  • 視覚的観測を伴う大規模な1人称3次元ナビゲーションドメインにおいて、USFAの実用的利点を実証する。

提案手法

  • USFAをUVFAの一般化として提案する。継続的特徴量をタスク記述子に条件づけることで、多次元価値関数近似が可能になる。
  • ニューラルネットワークを用いて、状態-行動-次状態遷移とタスク記述子を入力とし、継続的特徴量を出力する関数をパラメータライズする。これにより、タスク間でのパラメトリックな一般化が可能になる。
  • 一般化政策改善(GPI)を適用し、USFAで推定された継続的特徴量を用いて複数の方策の評価を統合することで、未学習の報酬関数に対しても即時の方策推論が可能になる。
  • 方策とタスク表現を分離することで、方策と継続的特徴量の独立した学習を可能にし、サンプル効率と一般化性能を向上させる。
  • 時間差学習と継続的特徴量ターゲットに対する教師あり回帰の組み合わせを用いてUSFAを学習し、タスク間で共有される特徴表現を活用する。
  • 継続的特徴量が報酬関数に関して線形であることを利用し、再訓練なしに新しい報酬関数下での高速な方策評価を実現する。

実験結果

リサーチクエスチョン

  • RQ11つの関数近似器が、UVFA(価値関数空間内でのパラメトリック一般化)とSF&GPI(環境構造と動的計画法による一般化)の両方の利点を統合し、ゼロショット転移を可能にするか?
  • RQ2USFAにおける方策とタスク表現の分離が、高次元で視覚的な3次元環境における一般化性能と学習安定性に与える影響はいかほどか?
  • RQ31つの手法だけでは最適でない状況(例:多数の方策が必要な場合、または僅かにしか一般化しない方策がある場合)において、USFAはUVFAやSF&GPIをどれほど上回るか?
  • RQ4USFAを用いた未学習タスクへの効果的な一般化を可能にする主なアーキテクチャ的・学習的選択肢は何か?また、それらは大規模ドメインにどのようにスケーリング可能か?

主な発見

  • USFAは、UVFAとSF&GPIを特別なケースとして回復でき、両フレームワークの厳密な一般化であることを示している。
  • 多数の最適方策が存在する環境では、USFAはUVFA風の関数近似によるパラメトリック一般化を活用することで、通常のSF&GPIを上回る性能を示す。
  • 一般化が僅かにしか行われない少数の方策がある状況では、USFAはSF&GPIの優れたゼロショット性能を効果的に再現し、異なる状況に柔軟に対応できることを示している。
  • USFAの分離された学習方式は、継続的特徴量近似が不完全な領域においても、標準的なUVFAよりも優れた一般化性能を達成している。
  • USFAは、再訓練を必要とせず、事前に学習された継続的特徴量のみで新しい報酬関数下での即時の方策評価を可能にし、再訓練に比べて推論時間を著しく短縮する。
  • 大規模な3次元ナビゲーション環境における実験結果から、USFAは強力な転移性能とスケーラビリティを達成しており、複雑で視覚的なRL設定における実用的有用性が裏付けられている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。