QUICK REVIEW

[論文レビュー] Fast Task Inference with Variational Intrinsic Successor Features

Steven Hansen, Will Dabney|arXiv (Cornell University)|Jun 12, 2019

Reinforcement Learning in Robotics参考文献 42被引用数 22

ひとこと要約

本稿では、変分自己制御と後続特徴量を組み合わせることで、自己教師あり事前学習の後、高速かつ一般化可能なタスク推論を可能にする、新たな強化学習アルゴリズムである変分的内在的後続特徴量（VISR）を提案する。行動相互情報量の最大化により制御可能な特徴量を学習し、線形報酬回帰を用いて迅速なポリシー適応を実現することで、VISRは12種類のAtariゲームで人間水準のパフォーマンスを達成し、教師あり微調整や長時間の相互作用を用いるベースラインをすべて上回る。

ABSTRACT

It has been established that diverse behaviors spanning the controllable subspace of an Markov decision process can be trained by rewarding a policy for being distinguishable from other policies \citep{gregor2016variational, eysenbach2018diversity, warde2018unsupervised}. However, one limitation of this formulation is generalizing behaviors beyond the finite set being explicitly learned, as is needed for use on subsequent tasks. Successor features \citep{dayan93improving, barreto2017successor} provide an appealing solution to this generalization problem, but require defining the reward function as linear in some grounded feature space. In this paper, we show that these two techniques can be combined, and that each method solves the other's primary limitation. To do so we introduce Variational Intrinsic Successor FeatuRes (VISR), a novel algorithm which learns controllable features that can be leveraged to provide enhanced generalization and fast task inference through the successor feature framework. We empirically validate VISR on the full Atari suite, in a novel setup wherein the rewards are only exposed briefly after a long unsupervised phase. Achieving human-level performance on 14 games and beating all baselines, we believe VISR represents a step towards agents that rapidly learn from limited feedback.

研究の動機と目的

行動相互情報量（BMI）最大化によって多様な行動を学習する自己教師あり強化学習手法の一般化性能の低さと推論速度の遅さを解決すること。
線形パラメータ化された報酬関数を必要とする後続特徴量（SFs）に適した特徴量を自動で学習するという未解決の問題を解決すること。
BMIとSFsを統合したフレームワークを構築し、最小限の報酬フィードバックで新しいタスクへの高速かつデータ効率の良い適応を可能にすること。
エージェントが長期間の自己教師ありフェーズを経て短時間の報酬露出のみを受けるという現実的状況において、本手法の有効性を検証すること。

提案手法

VISRは変分推論を用いて、潜在コードと状態訪問分布の間の相互情報量を最大化することで、分離可能で制御可能な潜在空間を学習する。
その潜在空間を用いて後続特徴量（SFs）を定義し、これはポリシー下での将来の状態訪問の期待値を表し、価値関数の線形関数近似を可能にする。
スパarsな報酬信号から最適なタスクベクトル（すなわち、ポリシーの潜在コード）を推定するために線形報酬回帰問題を解くことで、再訓練なしに迅速な推論が可能になる。
BMIで学習された特徴量は、自然に制御可能で意味的に意味のある行動を捉えているため、SFsに適していることが本手法の根拠である。
異なる潜在コード下で収集した状態訪問データを用いた線形回帰により、タスク推論を実行し、高価な探索や再訓練を回避する。
本手法は、推論されたポリシーを用いて任意の強化学習アルゴリズムをウォームスタート可能であり、さらなる微調整によるパフォーマンス向上を可能にする。

実験結果

リサーチクエスチョン

RQ1行動相互情報量最大化を用いて、後続特徴量に適した特徴量を学習できるか。これにより、高速な転移学習が可能になるか。
RQ2BMIと後続特徴量を組み合わせることで、標準的なBMIまたはSFのみの手法と比較して、より高速かつ一般化性の高いタスク推論が達成できるか。
RQ3長期間の自己教師ありフェーズに続く短時間の報酬露出という状況下で、VISRは少数ステップの強化学習設定で強力なパフォーマンスを発揮できるか。
RQ4潜在空間におけるランダム探索や全探索と比較して、線形報酬回帰によるタスク推論はより効果的か。
RQ5サンプル効率と最終パフォーマンスの観点から、VISRは教師あり微調整や好奇心ベースの手法と比較してどうか。

主な発見

VISRは、自己教師あり事前学習の後、短時間の報酬露出のみを経て、57種類のAtariゲームのうち12種類で人間水準のパフォーマンスを達成した。
線形報酬回帰によるタスク推論は、57種類のゲームのうち41種類でランダム探索を上回り、中央値報酬は8.99で、ランダム探索の3.45を上回った。
57種類すべてのゲームにおける平均人間正規化報酬は、報酬回帰を用いた場合109.16、ランダム探索を用いた場合63.57であり、同一データを用いて比較した。
VISRは、教師あり微調整や好奇心ベース探索を用いるすべてのベースラインを、同じ少数ステップ強化学習設定で上回った。
Pathakら（2017）の26種類のゲームにおいて、VISRはわずか100万件の遷移でDQNのパフォーマンスに達したが、DQNは2億件の遷移が必要だった。
完全に自己教師ありのバージョンのVISRは、教師ありベースラインに劣っているため、事前学習段階での探索の改善の余地がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。