QUICK REVIEW

[论文解读] Bandit Theory meets Compressed Sensing for high dimensional Stochastic Linear Bandit

Alexandra Carpentier, Rémi Munos|arXiv (Cornell University)|May 18, 2012

Advanced Bandit Algorithms Research参考文献 19被引用 76

一句话总结

该论文提出SL-UCB，一种针对高维稀疏参数的随机线性Bandit问题的新算法。通过结合压缩感知进行支持集识别与在低维子空间上的线性Bandit方法，该算法实现了$O(S\sqrt{n})$的遗憾界，其规模依赖于稀疏度$S$而非维度$K$，从而在$n \ll K$时实现高效学习。该方法在通过梯度上升进行高维函数优化中得到验证。

ABSTRACT

We consider a linear stochastic bandit problem where the dimension $K$ of the unknown parameter $\ heta$ is larger than the sampling budget $n$. In such cases, it is in general impossible to derive sub-linear regret bounds since usual linear bandit algorithms have a regret in $O(K\\sqrt{n})$. In this paper we assume that $\ heta$ is $S-$sparse, i.e. has at most $S-$non-zero components, and that the space of arms is the unit ball for the $||.||_2$ norm. We combine ideas from Compressed Sensing and Bandit Theory and derive algorithms with regret bounds in $O(S\\sqrt{n})$.

研究动机与目标

解决当轮数$n$远小于参数维度$K$时的高维随机线性Bandit挑战。
通过假设未知参数$\theta$为$S$-稀疏，实现在高维设置下的次线性遗憾。
设计一种算法，利用压缩感知原理高效识别$\theta$的相关坐标。
通过线性Bandit方法实现支持集估计与自适应利用的结合，以达到最优遗憾性能。

提出的方法

该算法采用两阶段方法：首先，通过受压缩感知启发的探索阶段识别稀疏参数$\theta$的支持集。
在支持集探索阶段，使用随机等分布投影（来自单位$\ell_2$-球的臂）收集带有噪声的内积测量值$r_t = \langle x_t, \theta + \eta_t \rangle$。
应用硬阈值化或正则化方法，从收集的测量值中估计$\theta$的支持集。
一旦支持集被估计，算法即切换到仅限于估计子空间的线性Bandit策略（UCB风格）以进行利用。
利用集中不等式（如Azuma不等式）以及支持集和参数估计误差的界，对遗憾进行分析。
最终通过结合支持集估计误差与在$S$-维子空间上线性Bandit的遗憾，推导出最终的遗憾界。

实验结果

研究问题

RQ1当$n \ll K$时，能否在高维随机线性Bandit中实现次线性遗憾？
RQ2是否能够利用参数$\theta$的稀疏性，使遗憾低于标准的$O(K\sqrt{n})$界？
RQ3压缩感知技术能否有效整合进Bandit学习中，以在有限样本下识别相关特征？
RQ4在高维稀疏设置中，如何平衡探索与利用以最小化遗憾？
RQ5当真实参数为$S$-稀疏且$S \ll K$时，最优遗憾的标度是什么？

主要发现

SL-UCB算法实现了$O(S\sqrt{n})$的遗憾界，其依赖于稀疏度$S$而非环境维度$K$，显著优于标准的$O(K\sqrt{n})$界。
该遗憾界以高概率$1 - \delta$成立，且对$\delta$的依赖为对数形式，具体为$O(\log(2K/\delta))$。
该算法仅通过$O(S\log K)$次测量即可成功识别$\theta$的支持集，与压缩感知理论一致。
数值实验表明，SL-UCB在优化具有稀疏梯度的高维函数方面效率极高，优于标准Bandit基线方法。
该方法在如高维函数梯度上升等场景中尤为有效，其中仅有少数变量具有相关性。
分析表明，遗憾主要由支持集恢复的估计误差与在简化$S$-维子空间上的遗憾共同主导，二者均通过集中不等式与UCB风格置信界得到控制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。