QUICK REVIEW

[論文レビュー] What can I do here? A Theory of Affordances in Reinforcement Learning

Khimya Khetarpal, Zafarali Ahmed|arXiv (Cornell University)|Jun 26, 2020

Reinforcement Learning in Robotics被引用数 32

ひとこと要約

本論文はRLのためのアフォーダンス理論を提案し、意図とアフォーダンスを定義して行動空間を制限し、価値損失と計画損失を分析し、アフォーダンスと部分モデルの学習が一般化と計画効率を改善することを示す。

ABSTRACT

Reinforcement learning algorithms usually assume that all actions are always available to an agent. However, both people and animals understand the general link between the features of their environment and the actions that are feasible. Gibson (1977) coined the term "affordances" to describe the fact that certain states enable an agent to do certain actions, in the context of embodied agents. In this paper, we develop a theory of affordances for agents who learn and plan in Markov Decision Processes. Affordances play a dual role in this case. On one hand, they allow faster planning, by reducing the number of actions available in any given situation. On the other hand, they facilitate more efficient and precise learning of transition models from data, especially when such models require function approximation. We establish these properties through theoretical results as well as illustrative examples. We also propose an approach to learn affordances and use it to estimate transition models that are simpler and generalize better.

研究の動機と目的

Markov Decision Processes (MDPs) におけるアフォーダンスを、意図の下での行動実現性を反映する正式な定義として導入する。
意図を満たす形で行動空間を削減することで、価値をほとんど失わずに計画を高速化できることを示す。
アフォーダンスベースの部分モデルを用いる際の価値損失に関する理論上の界を提供する。
データからアフォーダンスを学習し、それを用いてより単純で一般化可能な遷移モデルを推定する方法を提案する。
アフォーダンスが計画精度と計算効率に与える経験的な利点を実証する。

提案手法

意図 I_a を、各行動 a に対して状態から次状態分布の望ましい分布への写像として定義する。
アフォーダンス AF_I を、その行動の意図がε程度満たされる状態-行動対の集合として定義する。
導出される MDP M_I を意図を用いて構築し、真の MDP M との値を比較して、価値損失の界を導出する（定理1）。
アフォーダンスを用いた計画を導入するために、アフォーダンス可能な状態-行動対集合に制限された部分モデル hat{M}_{AF_I} を学習し、計画損失を界付する（定理2）。
アフォーダンスサイズと計画のバイアス-分散トレードオフを結ぶポリシークラスサイズ分析 Pi_I を提供する。
分類器 A_theta を用いてアフォーダンスを学習し、意図補完関数 c を用いて遷移モデルを訓練・マスクする方法を提案する。
グリッドワールドと連続設定で、計画時間の短縮と一般化の改善を示す経験的結果を示す。

実験結果

リサーチクエスチョン

RQ1意図の下での行動実現性を捉えるために、MDPフレームワーク内でアフォーダンスをどのようにformalizeできるか？
RQ2アフォーダンスベースの部分モデルを用いる場合の価値は、完全なモデルと比較してどうなるか？
RQ3アフォーダンス集合のサイズは、計画損失とバイアス-分散トレードオフにどう影響するか？
RQ4データからアフォーダンスを学習し、未知の状況に一般化する部分遷移モデルを訓練できるか？
RQ5アフォーダンスはRLタスクで計画速度と安定性を改善するか？

主な発見

元のMDP最適値とアフォーダンスベースの方針との間の価値損失は 2 epsilon gamma Rmax /(1- gamma)^2 で界される（定理1）。
アフォーダンスを用いた計画損失は、データ・ε・ポリシークラスサイズ |Pi_I| に依存して高確率で界される（定理2）。
小さなアフォーダンスは、特に大きなグリッドやより複雑な環境で価値反復の計画時間を短縮する。
アフォーダンスと部分モデルの学習は、連続設定での分布外予測を含む一般化の改善をもたらす。
データが少ない状況では中間的なアフォーダンスサイズがバイアス-分散トレードオフをもたらし、データが増えるにつれてより大きなアフォーダンスが有利になる（Sec. 6.3の経験的結果）。
アフォーダンスを考慮したモデルは、訓練中に見られなかった行動へ一般化し、障害物近傍での不正確な予測を減らすことができる（図6）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。