QUICK REVIEW

[论文解读] What can I do here? A Theory of Affordances in Reinforcement Learning

Khimya Khetarpal, Zafarali Ahmed|arXiv (Cornell University)|Jun 26, 2020

Reinforcement Learning in Robotics被引用 32

一句话总结

本论文提出一个强化学习的可供性理论，定义意图 (intents) 和可供行动 (affordances) 来限制动作空间，分析价值和规划损失，并展示学习可供性和部分模型如何提升泛化和规划效率。

ABSTRACT

Reinforcement learning algorithms usually assume that all actions are always available to an agent. However, both people and animals understand the general link between the features of their environment and the actions that are feasible. Gibson (1977) coined the term "affordances" to describe the fact that certain states enable an agent to do certain actions, in the context of embodied agents. In this paper, we develop a theory of affordances for agents who learn and plan in Markov Decision Processes. Affordances play a dual role in this case. On one hand, they allow faster planning, by reducing the number of actions available in any given situation. On the other hand, they facilitate more efficient and precise learning of transition models from data, especially when such models require function approximation. We establish these properties through theoretical results as well as illustrative examples. We also propose an approach to learn affordances and use it to estimate transition models that are simpler and generalize better.

研究动机与目标

在马尔可夫决策过程（MDP）中引入可供性的正式定义，以反映在意图下的行动可行性。
展示可供性如何通过在不牺牲过多价值的情况下缩小动作空间来加速规划。
给出在使用基于可供性的部分模型时的价值损失的理论界限。
提出从数据中学习可供性的方法，并用它们来估计简化、具有更好泛化能力的状态转移模型。
展示可供性在规划准确性和计算效率方面的实证收益。

提出的方法

将意图 I_a 定义为一个将状态映射到每个动作 a 的期望下一个状态分布的函数。
将可供性 AF_I 定义为在该行动的意图在程度 epsilon 上被满足的状态-动作对集合。
使用意图构建诱导的 MDP M_I，并将其价值与真实 MDP M 进行比较，推导出价值损失的界限（定理1）。
通过学习仅限于可负担的状态-动作对的部分模型 hat{M}_{AF_I} 来引入带有可供性的规划，并给出规划损失的界限（定理2）。
提供策略族大小分析 Pi_I，将可供性规模与规划偏差-方差权衡联系起来。
提出通过分类器 A_theta 学习可供性，并使用意图完成函数 c 来训练并屏蔽转移模型。
在网格世界和连续设置中展示实证结果，说明规划时间降低和泛化能力提升。

实验结果

研究问题

RQ1如何在MDP框架中将可供性形式化，以捕捉在意图下的行动可行性？
RQ2使用基于可供性的部分模型相对于完整模型对价值的影响是什么？
RQ3可供性集合的大小如何影响规划损失以及偏差-方差权衡？
RQ4可供性能否从数据中学习，并用于训练对未见情境具泛化能力的部分转移模型？
RQ5可供性是否能提升强化学习任务中的规划速度和稳定性？

主要发现

原始 MDP 最优值与基于可供性的策略之间的价值损失被界定为 2 epsilon gamma Rmax /(1- gamma)^2（定理 1）。
带有可供性的规划损失在高概率下有界，取决于数据、epsilon 以及策略族大小 |Pi_I|（定理 2）。
较小的可供性可在值迭代中减少规划时间，尤其是在更大网格或更复杂环境中。
学习可供性和部分模型可带来更好的泛化，包括在连续设置中对分布外预测的改进。
中等规模的可供性在小数据场景中可以实现偏差-方差权衡，随着数据增加，较大的可供性更有利（见第6.3节的经验结果）。
具备可供性感知的模型可以泛化到训练时从未见过的动作，并减少靠近障碍物处的错误预测（图6）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。