QUICK REVIEW

[论文解读] Conservative Contextual Linear Bandits

Abbas Kazerouni, Mohammad Ghavamzadeh|arXiv (Cornell University)|Nov 19, 2016

Advanced Bandit Algorithms Research被引用 45

一句话总结

本文提出保守线性UCB（CLUCB），一种安全的上下文线性Bandit算法，可保证在所有时间点性能均不低于基线策略的固定比例。通过将标准线性UCB修改为仅在满足安全约束时才选择乐观动作，CLUCB在实现标准线性UCB的遗憾基础上，额外增加一个与时间无关的常数项，从而确保以高概率实现安全。

ABSTRACT

Safety is a desirable property that can immensely increase the applicability of learning algorithms in real-world decision-making problems. It is much easier for a company to deploy an algorithm that is safe, i.e., guaranteed to perform at least as well as a baseline. In this paper, we study the issue of safety in contextual linear bandits that have application in many different fields including personalized ad recommendation in online marketing. We formulate a notion of safety for this class of algorithms. We develop a safe contextual linear bandit algorithm, called conservative linear UCB (CLUCB), that simultaneously minimizes its regret and satisfies the safety constraint, i.e., maintains its performance above a fixed percentage of the performance of a baseline strategy, uniformly over time. We prove an upper-bound on the regret of CLUCB and show that it can be decomposed into two terms: 1) an upper-bound for the regret of the standard linear UCB algorithm that grows with the time horizon and 2) a constant (does not grow with the time horizon) term that accounts for the loss of being conservative in order to satisfy the safety constraint. We empirically show that our algorithm is safe and validate our theoretical analysis.

研究动机与目标

解决在现实场景中部署学习算法时，初始性能不安全可能导致利益相关者拒绝的问题。
将上下文线性Bandit中的安全性形式化为相对于基线策略的累积奖励的统一、高概率约束。
设计一种学习算法，在严格满足安全约束的同时最小化遗憾。
提供关于遗憾和安全性的理论保证，表明保守性仅引入与时间范围无关的常数遗憾惩罚。

提出的方法

将安全性形式化为约束：要求学习策略的期望累积奖励在所有时间点均至少为基线策略的α倍。
提出CLUCB，即线性UCB的保守变体，仅当在置信集中最坏参数下仍满足安全约束时才选择动作。
每轮中，CLUCB仅在标准LUCB推荐的动作满足安全阈值时才执行；否则，退回到基线策略。
提供CLUCB的两个版本：一个当基线策略的奖励函数已知时，另一个当其未知并需从数据中估计时。
利用对未知参数向量的置信集，计算最坏情况性能，以稳健地强制执行安全性。
证明遗憾上界可分解为两部分：标准LUCB的遗憾（随√T log T增长）和由保守性带来的常数加性项。

实验结果

研究问题

RQ1如何在上下文线性Bandit中正式定义并强制执行安全性，以确保性能永远不会低于基线策略的固定比例？
RQ2学习算法能否在上下文线性Bandit设置中，始终在时间上保持高遗憾性能的同时保证安全性？
RQ3在此类设置中，保守性（安全性）与遗憾之间的权衡是什么？该权衡能否独立于时间范围进行界定？
RQ4在实践中，所提出的CLUCB算法与标准线性UCB在安全性和遗憾方面相比如何？
RQ5CLUCB的保守行为是否导致与时间无关的遗憾惩罚？该结论能否被理论证明？

主要发现

CLUCB以高概率在所有时间点均满足安全约束，确保累积奖励永远不会低于基线策略期望奖励的α倍。
CLUCB的遗憾被限制为标准线性UCB的遗憾加上一个不随时间范围T增长的常数项。
初始保守阶段——在此阶段CLUCB遵循基线策略——持续有限轮数，具体取决于基线策略的次优性。
仿真结果证实，CLUCB在所有α值下均保持安全，而标准LUCB在早期轮次中显著比例的场景下违反了安全约束，尤其在α较小时更为明显。
在初始保守阶段结束后，CLUCB的每步遗憾收敛至LUCB的水平，且α越大（即安全约束越宽松），收敛越快。
与先前在多臂Bandit中保守遗憾随T增长的工作相比，CLUCB的遗憾界通过使保守性惩罚保持常数而得到改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。