[论文解读] Batch Value-function Approximation with Only Realizability
该论文提出 BVFT,一种批量强化学习算法,通过在探索性、多项式规模数据上的可实现性下对候选值函数进行成对对比的系列比赛,并通过分段常数抽象策略实现学习 Q* 的多项式样本复杂度。
We make progress in a long-standing problem of batch reinforcement learning (RL): learning $Q^\star$ from an exploratory and polynomial-sized dataset, using a realizable and otherwise arbitrary function class. In fact, all existing algorithms demand function-approximation assumptions stronger than realizability, and the mounting negative evidence has led to a conjecture that sample-efficient learning is impossible in this setting (Chen and Jiang, 2019). Our algorithm, BVFT, breaks the hardness conjecture (albeit under a stronger notion of exploratory data) via a tournament procedure that reduces the learning problem to pairwise comparison, and solves the latter with the help of a state-action partition constructed from the compared functions. We also discuss how BVFT can be applied to model selection among other extensions and open problems.
研究动机与目标
- 确定在实现性下实现多项式样本复杂度所需的最小函数逼近假设。
- 在不采取更强的函数逼近假设的情况下,开发一种从探索性批数据学习 Q* 的算法。
- 提供一个处理非结构化函数类的多项式样本分析框架,通过分段常数抽象和锦标赛机制实现。
- 分析局限性并讨论诸如模型选择等扩展。
提出的方法
- 引入 Batch Value-Function Tournament (BVFT),对候选函数的输出进行离散化以形成分段常数超集。
- 构造状态-动作空间的分区,使得函数在该分区上保持常数,从而实现在 L-infinity 意义下的 gamma 收缩的投影 Bellman 运算符。
- 在所有候选函数之间进行成对比较,利用基于离散化投影 Bellman 更新的数据相关统计量。
- 输出通过所有成对比较的函数,作为学习得到的 q 函数,从而得到贪婪策略。
- 在 Assumption 1(通过一个可控性系数的探索性数据)下给出多项式样本界。
- 讨论该方法尽管对于大型 |F| 的计算效率低下,仍可扩展至模型选择及其他扩展。
实验结果
研究问题
- RQ1在探索性数据和多项式规模数据集下,是否仅在实现性条件下也能在批量 RL 中学习到 Q*?
- RQ2如何在不采取更强的逼近假设的前提下,利用一个实现性但任意的函数类来识别 Q*?
- RQ3当使用分段常数增强的函数类时,学习近优策略的样本复杂度如何?
- RQ4BVFT 的局限性是什么,如何缓解或扩展到模型选择和其他问题?
主要发现
- BVFT 在 Assumption 1 下实现了多项式样本学习保证,在高概率下得到近似最优策略。
- 该算法通过离散化函数输出并在分段常数类上使用投影 Bellman 运算符,将学习简化为成对比较。
- 分段常数抽象使投影 Bellman 运算符成为 gamma 收缩,在没有离散化误差的情况下具有唯一不动点,对应于 Q*。
- 方法通过 epsilon_F 项处理函数类的近似误差,并给出包含此实现性缺口的界。
- BVFT 对整个函数类进行枚举,在类大小为多项式时仍可行,并且可以用于模型选择。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。