QUICK REVIEW

[論文レビュー] Approximate Exploration through State Abstraction

Adrien Ali Taïga, Aaron Courville|arXiv (Cornell University)|Aug 29, 2018

Reinforcement Learning in Robotics被引用数 4

ひとこと要約

本稿は、密度モデルが暗黙的に定義する抽象化が、過小探索や過剰探索を引き起こす可能性があることと、疑似カウントに基づく探索ボーナスと状態抽象化を結びつけることで、強化学習における近似的な探索を調査している。本稿では、明示的抽象化と暗黙的抽象化の不一致を解消する新しい疑似カウントボーナスを提案し、非表形式設定における探索効率と理論的保証を向上させている。

ABSTRACT

Although exploration in reinforcement learning is well understood from a theoretical point of view, provably correct methods remain impractical. In this paper we study the interplay between exploration and approximation, what we call approximate exploration. Our main goal is to further our theoretical understanding of pseudo-count based exploration bonuses (Bellemare et al., 2016), a practical exploration scheme based on density modelling. As a warm-up, we quantify the performance of an exploration algorithm, MBIE-EB (Strehl and Littman, 2008), when explicitly combined with state aggregation. This allows us to confirm that, as might be expected, approximation allows the agent to trade off between learning speed and quality of the learned policy. Next, we show how a given density model can be related to an abstraction and that the corresponding pseudo-count bonus can act as a substitute in MBIE-EB combined with this abstraction, but may lead to either under- or over-exploration. Then, we show that a given density model also defines an implicit abstraction, and find a surprising mismatch between pseudo-counts derived either implicitly or explicitly. Finally we derive a new pseudo-count bonus alleviating this issue.

研究の動機と目的

疑似カウントに基づく探索の理論的挙動を非表形式環境で理解すること。
状態抽象化がMBIE-EBのようなモデルベースRLアルゴリズムの探索性能に与える影響を分析すること。
疑似カウント手法における密度モデルが引き起こす明示的抽象化と暗黙的抽象化の不一致を特定すること。
この不一致に起因する過小探索および過剰探索を軽減する新しい疑似カウントボーナスを提案すること。
実用的RL設定における探索速度とポリシー品質のトレードオフを改善すること。

提案手法

明示的状態集約を用いたMBIE-EBに適用し、抽象化の質とサイズに依存する性能バウンドを導出する。
疑似カウントと状態集約の関係を提示し、実際のカウントの代わりに使用可能であるが、過小探索や過剰探索を引き起こす可能性があることを示す。
疑似カウントが密度モデルを通じて暗黙的に抽象化を定義していることが判明し、これが意図した明示的抽象化と一致しない場合があることを見出す。
暗黙的抽象化を意図した明示的抽象化と一致させる新しい疑似カウントボーナスを導出する。これにより、探索の非効率性が低減される。
理論的分析と9部屋グリッドワールドにおける実験的評価を用いて、提案手法の有効性を検証する。
状態集約関数に基づき、報酬と遷移の凸結合を用いて抽象MDPを定義する。

実験結果

リサーチクエスチョン

RQ1状態抽象化は、MBIE-EBの学習速度とポリシー品質にどのように影響するか？
RQ2密度モデルから導出される疑似カウントは、状態抽象化下でMBIE-EBにおいて実際のカウントの有効な代替手段として機能するか？
RQ3疑似カウントを用いる際、明示的抽象化と暗黙的抽象化の間に不一致が生じる理由とその結果は何か？
RQ4不一致を是正するように、明示的設計と一致するように暗黙的抽象化を調整する新しい疑似カウントボーナスを導出可能か？
RQ5提案手法は、標準のMBIE-EBおよび疑似カウントを用いたMBIE-EBと比較して、累積報酬および頑健性の観点でどのように異なるか？

主な発見

MBIE-EBにおける明示的状態抽象化により、学習速度とポリシー品質のトレードオフが可能となり、細かい集約がより優れた性能をもたらす。
MBIE-EBにおける疑似カウントの使用は、理論的保証に到達しない（過小探索）または過剰なサンプル使用を引き起こす（過剰探索）可能性があり、本稿で定量的に評価されている。
疑似カウントは密度モデルを通じて暗黙的に抽象化を定義しており、これが意図した明示的抽象化と一致しない場合、性能の低下を引き起こす。
明示的および暗黙的に導出される疑似カウントの行動に驚くべき不一致が確認され、理論的保証が損なわれる。
提案された新しい疑似カウントボーナスは、この不一致を解消し、さまざまなハイパーパramータ設定において探索効率と頑健性を向上させている。
実験結果から、MBIE-EB-PC（新しいボーナスを適用）は、最初の10,000タイムステップでより高い累積報酬を達成し、ハイパーパramータの選択に対して標準のMBIE-EBよりも頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。