QUICK REVIEW

[論文レビュー] A Geometric Perspective on Optimal Representations for Reinforcement Learning

Marc G. Bellemare, Will Dabney|arXiv (Cornell University)|Jan 31, 2019

Reinforcement Learning in Robotics参考文献 72被引用数 26

ひとこと要約

本稿は、定常方策のすべての価値関数にわたる近似誤差を最小化する問題として定式化することにより、強化学習における最適表現学習の幾何的枠組みを導入する。悪徳価値関数（AVFs）—ネットワークフロー最適化に基づく利益関数δから導かれる極値価値関数—が表現学習のための重要なサブセットであると特定し、AVFsを補助タスクとして予測することで、優れた構造的表現が得られることを示した。実験では四部屋グリッドワールドでその有効性が裏付けられた。

ABSTRACT

We propose a new perspective on representation learning in reinforcement learning based on geometric properties of the space of value functions. We leverage this perspective to provide formal evidence regarding the usefulness of value functions as auxiliary tasks. Our formulation considers adapting the representation to minimize the (linear) approximation of the value function of all stationary policies for a given environment. We show that this optimization reduces to making accurate predictions regarding a special class of value functions which we call adversarial value functions (AVFs). We demonstrate that using value functions as auxiliary tasks corresponds to an expected-error relaxation of our formulation, with AVFs a natural candidate, and identify a close relationship with proto-value functions (Mahadevan, 2005). We highlight characteristics of AVFs and their usefulness as auxiliary tasks in a series of experiments on the four-room domain.

研究の動機と目的

価値関数空間の幾何的性質を通じて、強化学習における表現学習を形式化すること。
最適表現品質を決定づける最小で重要な価値関数のサブセットである悪徳価値関数（AVFs）を同定すること。
最適表現定式化の緩和を通じて、価値関数予測を補助タスクとして用いる根拠を提示すること。
AVFsがランダムまたは標準的価値関数よりも優れた、より豊かな構造的表現をもたらすことを、実験的に検証すること。

提案手法

与えられたMDPにおける定常方策のすべての価値関数にわたる線形近似誤差を最小化する問題として、最適表現学習を定式化する。
最悪ケースの近似誤差が悪徳価値関数（AVFs）に対応することを導出する。AVFsは利益関数δに基づくネットワークフロー最適化の解として得られる。
価値関数予測を補助タスクとして用いることが、最適表現問題の緩和であることを示し、AVFsが自然なターゲットであることを示す。
AVFsの主成分分析を用いて状態表現を生成し、プロト価値関数やランダム方策と比較する。
勾配ベース最適化を用いて深層ネットワークでAVFsを予測する。表現品質は下流の方策性能によって評価する。
疑似逆行列スケーリングと反復更新を用いて訓練を安定化させ、分散を低減する。

実験結果

リサーチクエスチョン

RQ1最適表現品質を決定づける価値関数空間の幾何的構造は何か？
RQ2表現学習における最悪ケース近似誤差を捉えるのに十分な価値関数のサブセットは何か？
RQ3悪徳価値関数の予測は、他の補助タスクと比較して、構造的表現学習においてどのように異なるか？
RQ4AVFsは、強化学習における表現学習のための原理的かつ理論的根拠を持つ補助タスクとして機能できるか？

主な発見

悪徳価値関数（AVFs）は、表現学習における最悪ケース近似誤差を決定づける重要な価値関数のサブセットである。
AVFsは利益関数δに基づくネットワークフロー最適化から導かれる。これは各状態で期待リターンを極値化する決定的方策に対応する。
AVFsの主成分分析による表現学習は、四部屋領域における長距離構造を捉えており、ランダム方策やプロト価値関数からの表現を上回る。
AVFsを補助タスクとして予測するように深層ネットワークを訓練すると、下流の方策性能が向上し、収束が速く、分散が小さい。
AVFsに基づく表現はサンプルサイズに強く、k=20から1000の小さなAVFs集合からも安定した構造が得られる。
AVFsは価値予測を補助タスクとして用いる根拠を理論的に裏付けるものであり、最適表現問題と結びついている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。