[论文解读] Learning with Good Feature Representations in Bandits and in RL with a Generative Model
本文证明,当上下文 bandits 和强化学习(RL)中具备良好的线性特征表示时,即使存在模型误设,智能体也能高效识别近似最优动作。通过利用 Kiefer–Wolfowitz 定理与最小二乘估计,该方法保证了次优性差距为 $ O(\varepsilon\sqrt{d}) $,其中 $ \varepsilon $ 为一致近似误差,$ d $ 为特征维度,从而仅需 $ O(d\log\log d) $ 次动作查询即可实现高效学习。
The construction by Du et al. (2019) implies that even if a learner is given linear features in $\mathbb R^d$ that approximate the rewards in a bandit with a uniform error of $ε$, then searching for an action that is optimal up to $O(ε)$ requires examining essentially all actions. We use the Kiefer-Wolfowitz theorem to prove a positive result that by checking only a few actions, a learner can always find an action that is suboptimal with an error of at most $O(ε\sqrt{d})$. Thus, features are useful when the approximation error is small relative to the dimensionality of the features. The idea is applied to stochastic bandits and reinforcement learning with a generative model where the learner has access to $d$-dimensional linear features that approximate the action-value functions for all policies to an accuracy of $ε$. For linear bandits, we prove a bound on the regret of order $\sqrt{dn \log(k)} + εn \sqrt{d} \log(n)$ with $k$ the number of actions and $n$ the horizon. For RL we show that approximate policy iteration can learn a policy that is optimal up to an additive error of order $ε\sqrt{d}/(1 - γ)^2$ and using $d/(ε^2(1 - γ)^4)$ samples from a generative model. These bounds are independent of the finer details of the features. We also investigate how the structure of the feature set impacts the tradeoff between sample complexity and estimation error.
研究动机与目标
- 探究在生成模型下,良好的特征表示是否足以实现随机 bandits 和 RL 中的高效学习。
- 回应 Du 等人(2019)的负面结果:当追求 $ O(\varepsilon) $-最优策略时,在一致近似误差 $ \varepsilon $ 下高效学习是不可能的。
- 提出一种方法,实现 $ O(\varepsilon\sqrt{d}) $ 的次优性差距,且仅需 $ O(d\log\log d) $ 次动作查询。
- 将学习问题解耦为查询复杂度与值函数估计,从而在线性 bandits 和生成模型下的 RL 中均可进行分析。
提出的方法
- 该方法利用 Kiefer–Wolfowitz 定理,为动作查询构建近似最优设计,以最小化最小二乘估计中奖励函数的最坏情况方差。
- 采用最小二乘估计器,利用 $ O(d\log\log d) $ 个精心选择的动作来近似奖励函数,确保在最大范数下估计误差有界。
- 在线性 bandits 中,推导出的遗憾界为 $ \sqrt{dn\log k} + \varepsilon n\sqrt{d}\log n $,其中 $ n $ 为时间范围,$ k $ 为动作数。
- 在具有生成模型的 RL 中,算法采用近似策略迭代,并使用 $ d/((\varepsilon^2(1-\gamma)^4)) $ 个样本,实现策略次优性差距为 $ O(\varepsilon\sqrt{d}/(1-\gamma)^2) $。
- 分析将查询复杂度与值估计分离,利用 Hoeffding 不等式和算子范数界控制策略迭代中的误差传播。
- 该方法依赖贝尔曼算子的统一压缩性质,并通过 $ \|Q - Q^*\|_\infty $ 范数界控制贪婪策略评估中的误差。
实验结果
研究问题
- RQ1当奖励函数在 $ d $-维特征空间中仅以一致误差 $ \varepsilon $ 近似线性时,是否可以在 bandits 和 RL 中实现高效学习?
- RQ2即使真实最优动作不在特征空间张成的子空间中,是否仍能仅通过 $ O(d\log\log d) $ 次动作查询,找到次优性差距为 $ O(\varepsilon\sqrt{d}) $ 的近似最优动作?
- RQ3特征空间的维度 $ d $ 如何影响在误设线性模型中样本复杂度与估计误差之间的权衡?
- RQ4当从具有有限样本的生成模型中估计 $ Q $-函数时,能否在近似策略迭代中控制近似误差?
- RQ5次优性差距中的 $ \sqrt{d} $ 放大效应是否不可避免?能否通过稀疏性或其他结构假设加以减少?
主要发现
- 本文证明,没有任何算法能在不检查几乎所有动作的情况下找到 $ O(\varepsilon) $-最优动作,即使奖励函数在 $ \varepsilon $ 范围内位于 $ d $-维线性子空间内。
- 正面结果表明,算法仅需 $ O(d\log\log d) $ 次动作查询,即可找到次优性差距最多为 $ O(\varepsilon\sqrt{d}) $ 的动作。
- 在线性 bandits 中,遗憾界为 $ \sqrt{dn\log k} + \varepsilon n\sqrt{d}\log n $,且与特定特征结构无关。
- 在具有生成模型的 RL 中,该方法使用 $ O(d/((\varepsilon^2(1-\gamma)^4)) $ 个样本,学习到的策略次优性差距为 $ O(\varepsilon\sqrt{d}/(1-\gamma)^2) $。
- 分析表明,最坏情况下 $ \sqrt{d} $ 的误差放大不可避免,且 RL 中的 $ 1/(1-\gamma)^2 $ 因子也极可能无法改进。
- 该方法将查询复杂度与值估计解耦,从而实现清晰的分析,并可推广至非线性函数类。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。