QUICK REVIEW

[论文解读] Online Learning with Predictable Sequences

Alexander Rakhlin, Karthik Sridharan|arXiv (Cornell University)|Aug 18, 2012

Advanced Bandit Algorithms Research参考文献 16被引用 148

一句话总结

本文提出了一类在线学习算法，利用可预测序列（即结果遵循已知趋势加噪声）以获得比最坏情况保证更紧的遗憾界。通过利用对可预测过程的先验知识，该方法能够适应良性序列，同时保持对对抗性噪声的鲁棒性，在时间序列和股票预测等场景中实现性能提升。

ABSTRACT

We present methods for online linear optimization that take advantage of benign (as opposed to worst-case) sequences. Specifically if the sequence encountered by the learner is described well by a known "predictable process", the algorithms presented enjoy tighter bounds as compared to the typical worst case bounds. Additionally, the methods achieve the usual worst-case regret bounds if the sequence is not benign. Our approach can be seen as a way of adding prior knowledge about the sequence within the paradigm of online learning. The setting is shown to encompass partial and side information. Variance and path-length bounds can be seen as particular examples of online learning with simple predictable sequences. We further extend our methods and results to include competing with a set of possible predictable processes (models), that is "learning" the predictable process itself concurrently with using it to obtain better regret guarantees. We show that such model selection is possible under various assumptions on the available feedback. Our results suggest a promising direction of further research with potential applications to stock market and time series prediction.

研究动机与目标

解决标准在线学习方法仅提供最坏情况遗憾界的问题，这些界限在规则或结构化序列中往往过于悲观。
开发计算上可行的算法，在观测序列近似可预测（即遵循已知过程加噪声）时实现更紧的遗憾界。
在序列不可预测时保持标准的最坏情况遗憾界，确保鲁棒性。
扩展框架以支持在多个候选可预测过程之间进行模型选择，同时学习最佳模型与优化过程。
使框架适用于部分信息和附加信息场景，包括在线凸优化和Bandit问题。

提出的方法

将序列建模为可预测过程 $M_t$ 加上对抗性噪声，其中偏离 $M_t$ 的部分受 $σ_t$ 有界。
使用对称化论证和约束对手分析，基于总方差 $\sum_{t=1}^T \sigma_t^2$ 推导出更紧的遗憾界。
应用加倍技巧（doubling trick）以避免预先知道 $\sum_{t=1}^T \sigma_t^2$，从而实现自适应遗憾界。
通过减少到线性优化，将方法适配到在线凸优化，利用自洽凸障碍函数实现高效计算。
通过将问题约化为单纯形上的线性Bandit，将方法扩展到多臂Bandit问题，使用从观测奖励中获得的无偏估计器。
使用SCRiBLe算法结合单纯形上的自洽凸障碍函数，推导出Bandit设置下的遗憾界，实现对时间与维度的 $O(\eta^{-1} \log dT)$ 依赖关系。

实验结果

研究问题

RQ1当序列近似可预测（即遵循已知趋势并带有有界噪声）时，是否可以实现更紧的在线学习遗憾界？
RQ2如何在不牺牲最坏情况鲁棒性的前提下，将可预测过程的先验知识整合到在线学习中？
RQ3是否可以同时学习最适合数据的可预测过程（模型），并实现低遗憾？
RQ4该框架能否扩展到部分信息和附加信息场景，如在线凸优化和Bandit反馈？
RQ5当可预测过程未知但存在候选过程可供选择时，可实现的最紧遗憾界是什么？

主要发现

当序列接近可预测过程时，所提算法实现遗憾界形式为 $O\left(\sum_{t=1}^T \sigma_t^2\right)^{1/2}$，显著优于最坏情况下的 $O(\sqrt{T})$ 界。
当不存在可预测结构时，该方法仍保持标准的最坏情况遗憾界 $O(\sqrt{T})$，确保鲁棒性。
在多个可预测过程之间进行模型选择是可行的，遗憾界在多臂Bandit设置下为 $O(\eta^{-1} \log(dT))$。
该算法具有自适应性：由于使用了加倍技巧，无需预先知道 $\sum_{t=1}^T \sigma_t^2$。
通过减少到使用自洽凸障碍函数的线性优化，该框架可扩展至在线凸优化。
对于多臂Bandit问题，算法实现的期望遗憾被有界于 $\frac{1}{1 - 4\eta s d^2} \left( \inf_j \sum_{t=1}^T \langle e_j, x_t \rangle + d \eta^{-1} \log(dT) \right)$，展示了其实际适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。