[论文解读] Towards minimax policies for online linear optimization with bandit feedback
本文提出了一种针对带bandit反馈的在线线性优化的极小化极大最优算法,采用基于John定理的新型探索分布的指数加权方法,实现了有限动作集的遗憾界$\sqrt{dn\log N}$和紧致集合的$d\sqrt{n\log n}$。此外,通过使用自洽障碍函数的镜面下降法,在超立方体和欧几里得球上实现了高效且极小化极大的遗憾,相比之前的工作去除了多余的$\sqrt{d}$因子。
We address the online linear optimization problem with bandit feedback. Our contribution is twofold. First, we provide an algorithm (based on exponential weights) with a regret of order $\sqrt{d n \log N}$ for any finite action set with $N$ actions, under the assumption that the instantaneous loss is bounded by 1. This shaves off an extraneous $\sqrt{d}$ factor compared to previous works, and gives a regret bound of order $d \sqrt{n \log n}$ for any compact set of actions. Without further assumptions on the action set, this last bound is minimax optimal up to a logarithmic factor. Interestingly, our result also shows that the minimax regret for bandit linear optimization with expert advice in $d$ dimension is the same as for the basic $d$-armed bandit with expert advice. Our second contribution is to show how to use the Mirror Descent algorithm to obtain computationally efficient strategies with minimax optimal regret bounds in specific examples. More precisely we study two canonical action sets: the hypercube and the Euclidean ball. In the former case, we obtain the first computationally efficient algorithm with a $d \sqrt{n}$ regret, thus improving by a factor $\sqrt{d \log n}$ over the best known result for a computationally efficient algorithm. In the latter case, our approach gives the first algorithm with a $\sqrt{d n \log n}$ regret, again shaving off an extraneous $\sqrt{d}$ compared to previous works.
研究动机与目标
- 通过在对数因子内实现极小化极大最优性,弥合带bandit反馈的在线线性优化的遗憾界差距。
- 为结构化动作集(如超立方体和欧几里得球)上的bandit线性优化开发一种计算高效的策略。
- 证明在$d$维专家建议下,bandit线性优化的极小化极大遗憾与基本的$d$臂bandit问题一致。
- 证明通过精心选择障碍函数和扰动项,镜面下降法可在特定几何设置下实现极小化极大的遗憾。
提出的方法
- 使用基于John定理推导出的探索分布的指数加权方法,确保动作集的均匀覆盖,从而最小化估计方差。
- 在$\ell^2$-球上应用镜面下降框架,使用自洽障碍函数$F(x) = -\log(1 - \|x\|) - \|x\|$,实现高效更新。
- 采用扰动方案并利用两点反馈进行损失估计,以在bandit设置中保持有界的估计误差。
- 通过Bregman散度和凸共轭分析推导遗憾界,利用障碍函数的Legendre性质。
- 引入截断动作集$\mathcal{A}' = \{x : \|x\| \leq 1 - \gamma\}$以控制边界效应带来的遗憾。
- 通过$\ell^2$-范数归一化控制方差,确保损失估计器的集中性,使用估计值$\widetilde{z}_t$。
实验结果
研究问题
- RQ1对于紧致动作集,带bandit反馈的在线线性优化的遗憾是否可最小化至极小化极大的速率$\sqrt{dn\log n}$?
- RQ2基于John定理的探索方式是否使Exp2算法在有限动作集上实现最优遗憾?
- RQ3镜面下降能否有效适配bandit设置,以在超立方体和欧几里得球等结构化集合上实现极小化极大的遗憾?
- RQ4在$d$维专家建议下,bandit线性优化的极小化极大遗憾是否与基本的$d$臂bandit问题等价?
主要发现
- 对于任意大小为$N$的有限动作集,所提算法实现了$\sqrt{dn\log N}$的遗憾界,相比之前工作提高了$\sqrt{d}$因子。
- 对于紧致动作集,遗憾界为$d\sqrt{n\log n}$,在对数因子内为极小化极大最优。
- 在$\ell^2$-球上,基于镜面下降的算法实现了$\sqrt{dn\log n}$的遗憾,相比之前方法消除了多余的$\sqrt{d}$因子。
- 在超立方体上,算法实现了$d\sqrt{n}$的遗憾,这是首个实现该最优速率的计算高效方法。
- 带$d$维动作和专家建议的bandit线性优化的极小化极大遗憾与$d$臂bandit问题一致,两者均为$\sqrt{dn\log N}$。
- 分析表明,通过自洽障碍函数的镜面下降框架的精细化分析,$\sqrt{dn\log n}$的遗憾界可在高概率下实现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。