[论文解读] Linear Stochastic Bandits Under Safety Constraints
该论文提出 Safe-LUCB,一种基于 UCB 的算法,用于线性随机多臂老虎机问题,其安全约束依赖于一个未知的参数向量。该算法分为两个阶段:首先进行纯探索阶段以估计安全动作集合,随后进入安全探索-利用阶段,在确保高概率安全的前提下最小化遗憾,实现了与最优动作在安全集合中位置相关的问题相关遗憾边界。
Bandit algorithms have various application in safety-critical systems, where it is important to respect the system constraints that rely on the bandit's unknown parameters at every round. In this paper, we formulate a linear stochastic multi-armed bandit problem with safety constraints that depend (linearly) on an unknown parameter vector. As such, the learner is unable to identify all safe actions and must act conservatively in ensuring that her actions satisfy the safety constraint at all rounds (at least with high probability). For these bandits, we propose a new UCB-based algorithm called Safe-LUCB, which includes necessary modifications to respect safety constraints. The algorithm has two phases. During the pure exploration phase the learner chooses her actions at random from a restricted set of safe actions with the goal of learning a good approximation of the entire unknown safe set. Once this goal is achieved, the algorithm begins a safe exploration-exploitation phase where the learner gradually expands their estimate of the set of safe actions while controlling the growth of regret. We provide a general regret bound for the algorithm, as well as a problem dependent bound that is connected to the location of the optimal action within the safe set. We then propose a modified heuristic that exploits our problem dependent analysis to improve the regret.
研究动机与目标
- 解决安全关键型应用中动作必须满足依赖于未知参数的约束的问题。
- 开发一种多臂老虎机算法,即使在初始阶段安全集合未知的情况下,也能保证每一轮都安全。
- 在逐步学习并扩展安全动作估计集合的同时最小化遗憾。
- 提供依赖于最优动作在安全集合中位置的理论遗憾边界。
提出的方法
- 该算法采用两阶段方法:首先在受限动作集合上进行纯探索,以估计安全集合。
- 在第二阶段,一旦获得安全集合的良好近似,便开始安全探索-利用。
- 通过维护对未知参数向量的置信区间,以确保高概率安全。
- 采用改进的 UCB 风格选择规则,优先选择在估计安全集合内的动作。
- 通过线性约束的统计置信边界,迭代地改进安全集合的估计。
- 基于问题相关分析引入一种启发式方法,以进一步降低遗憾。
实验结果
研究问题
- RQ1当安全集合依赖于未知参数时,线性随机多臂老虎机算法如何确保每一轮都安全?
- RQ2在这些约束条件下,探索安全与最小化遗憾之间的最优权衡是什么?
- RQ3最优动作在安全集合中的位置如何影响可实现的遗憾?
- RQ4结合纯探索与安全利用的两阶段方法是否能在安全约束下实现次线性遗憾?
主要发现
- Safe-LUCB 算法在安全约束下实现了通用遗憾边界。
- 推导出问题相关的遗憾边界,其依赖于最优动作相对于安全集合的几何位置。
- 该算法在整个学习过程中确保所采取的所有动作都以高概率是安全的。
- 基于问题相关分析提出的启发式方法显著提升了遗憾性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。