[论文解读] On the Complexity of Bandit and Derivative-Free Stochastic Convex Optimization
本文为老虎机(bandit)和无导数随机凸优化建立了紧致的复杂度界限,证明对于强凸且光滑的函数,最优误差率的下界为 $Ω(\sqrt{d^2/T})$,并表明在无梯度信息的情况下,对二次函数可实现快速的 $\mathcal{O}(1/T)$ 收敛率——从而解决了该领域长期存在的一个开放问题。
The problem of stochastic convex optimization with bandit feedback (in the learning community) or without knowledge of gradients (in the optimization community) has received much attention in recent years, in the form of algorithms and performance upper bounds. However, much less is known about the inherent complexity of these problems, and there are few lower bounds in the literature, especially for nonlinear functions. In this paper, we investigate the attainable error/regret in the bandit and derivative-free settings, as a function of the dimension d and the available number of queries T. We provide a precise characterization of the attainable performance for strongly-convex and smooth functions, which also imply a non-trivial lower bound for more general problems. Moreover, we prove that in both the bandit and derivative-free setting, the required number of queries must scale at least quadratically with the dimension. Finally, we show that on the natural class of quadratic functions, it is possible to obtain a "fast" O(1/T) error rate in terms of T, under mild assumptions, even without having access to gradients. To the best of our knowledge, this is the first such rate in a derivative-free stochastic setting, and holds despite previous results which seem to imply the contrary.
研究动机与目标
- 以维度 $d$ 和查询次数 $T$ 表征老虎机和无导数随机凸优化的根本复杂度。
- 弥合现有上界与下界在无导数和老虎机设置下对强凸且光滑函数的差距。
- 探究在无导数随机凸优化中是否可实现快速的 $\mathcal{O}(1/T)$ 误差率,特别是针对二次函数。
- 提供在自然凸域上成立、无需人为假设的显式信息论下界。
- 阐明老虎机优化(遗憾最小化)与无导数优化(误差最小化)之间的关系,表明前者严格更难。
提出的方法
- 构造一个由随机向量 $\mathbf{e} \in \{-\mu, +\mu\}^d$ 参数化的强凸且光滑函数族,使得函数值在不同 $\mathbf{e}$ 下几乎无法区分,即使远离最优解。
- 采用精心设计的函数形式 $F_{\mathbf{e}}(\mathbf{w}) = \|\mathbf{w}\|^2 - \sum_{i=1}^d \frac{e_i w_i}{1 + (w_i/e_i)^2}$,确保对所有 $\mathbf{w}$ 满足 $|F_{\mathbf{e}}(\mathbf{w}) - F_{-\mathbf{e}}(\mathbf{w})| = \Theta(\mu^2)$,从而使得通过函数查询难以区分 $\mathbf{e}$ 与 $-\mathbf{e}$。
- 通过对 $\mathbf{e}$ 的随机选择应用极小化极大论证,推导出期望优化误差的下界,证明其至少为 $\Omega(\sqrt{d^2/T})$。
- 证明在二次函数情形下,通过一种新颖的算法构造,在无梯度信息下可实现 $\mathcal{O}(1/T)$ 的误差率。
- 利用二次函数结构允许在无梯度访问下高效估计最小值的特性,即使在函数值存在噪声的情况下亦成立。
- 比较老虎机与无导数设置,表明老虎机设置更难,因为下界对两者均适用,但已知的上界在老虎机情形下更大。
实验结果
研究问题
- RQ1在无导数随机凸优化中,对强凸且光滑函数,最优可实现的误差率是多少?
- RQ2在无导数随机凸优化中,即使无梯度信息,是否可实现快速的 $\mathcal{O}(1/T)$ 误差率?
- RQ3在老虎机和无导数设置中,所需查询次数如何随维度 $d$ 变化?
- RQ4老虎机与无导数优化之间是否存在可证明的性能差距?若存在,其根源是什么?
- RQ5在自然凸域上,这些问题的最紧致信息论下界是什么?
主要发现
- 对强凸且光滑函数,无导数随机凸优化的最优误差率为 $\Omega(\sqrt{d^2/T})$,与已知上界仅差常数因子。
- 对二次函数,在无导数设置下可实现快速的 $\mathcal{O}(1/T)$ 误差率,即使无梯度访问——这是首个在无导数随机设置中实现此结果的工作。
- 在老虎机和无导数设置中,所需查询次数必须至少以维度 $d$ 的平方增长,原因在于难以从噪声函数值中区分函数参数。
- 老虎机设置严格难于无导数设置,因为相同的下界适用于两者,但已知的最佳上界在老虎机情形下更大。
- 下界构造使用了一类函数族,其中不同参数对应的函数值差异恒为 $\Theta(\mu^2)$,使得即使查询次数众多,也难以高效区分,从而构成根本性障碍。
- 本文通过证明在无导数设置下,对二次函数可实现 $\mathcal{O}(1/T)$ 收敛率,解决了长期存在的开放问题,与此前看似排除该可能性的结果相矛盾。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。