Skip to main content
QUICK REVIEW

[论文解读] Minimax Regret for Stochastic Shortest Path with Adversarial Costs and Known Transition

Liyu Chen, Haipeng Luo|arXiv (Cornell University)|Jul 7, 2021
Advanced Bandit Algorithms Research被引用 5
一句话总结

该论文提出了一种新颖的极小极大后悔算法,用于具有对抗性成本和已知转移概率的随机最短路径问题,通过在线镜像下降框架并结合新方法,包括偏斜的占用度量空间和成本估计器中的校正项。在完整信息设置下实现了 $O(\sqrt{DT_\star K})$ 的后悔,在 bandit 反馈设置下实现了 $O(\sqrt{DT_\star SA K})$ 的后悔,显著优于先前的工作。

ABSTRACT

We study the stochastic shortest path problem with adversarial costs and known transition, and show that the minimax regret is $O(\sqrt{DT_\star K})$ and $O(\sqrt{DT_\star SA K})$ for the full-information setting and the bandit feedback setting respectively, where $D$ is the diameter, $T_\star$ is the expected hitting time of the optimal policy, $S$ is the number of states, $A$ is the number of actions, and $K$ is the number of episodes. Our results significantly improve upon the recent work of (Rosenberg and Mansour, 2020) which only considers the full-information setting and achieves suboptimal regret. Our work is also the first to consider bandit feedback with adversarial costs. Our algorithms are built on top of the Online Mirror Descent framework with a variety of new techniques that might be of independent interest, including an improved multi-scale expert algorithm, a reduction from general stochastic shortest path to a special loop-free case, a skewed occupancy measure space, and a novel correction term added to the cost estimators. Interestingly, the last two elements reduce the variance of the learner via positive bias and the variance of the optimal policy via negative bias respectively, and having them simultaneously is critical for obtaining the optimal high-probability bound in the bandit feedback setting.

研究动机与目标

  • 解决具有已知转移动态的对抗性成本序列下的随机最短路径问题。
  • 通过改进 R. Rosenberg 和 Y. Mansour (2020) 的工作,填补完整信息设置下后悔界差距的空白。
  • 将分析扩展至此前在对抗性成本下未被研究的 bandit 反馈设置。
  • 开发新的算法技术,以降低方差并改善高概率后悔界。

提出的方法

  • 通过引入一种新颖的偏斜占用度量空间,对在线镜像下降框架进行改进,以更好地捕捉状态-动作分布的动力学。
  • 在成本估计器中引入校正项,通过引入正偏差来降低方差,从而提升 bandit 反馈下的稳定性。
  • 通过结构变换,将一般随机最短路径问题简化为无环的特殊情形。
  • 开发一种改进的多尺度专家算法,以处理基于路径的策略的层次结构。
  • 采用一种方差减少机制,通过引入负偏差来平衡最优策略估计中的偏差。
  • 将这些组件整合进统一的后悔最小化框架中,以实现紧致的高概率后悔界。

实验结果

研究问题

  • RQ1在完整信息反馈下,具有对抗性成本和已知转移概率的随机最短路径问题中,可实现的极小极大后悔是多少?
  • RQ2在完整信息设置下,能否超越 R. Rosenberg 和 Y. Mansour (2020) 的次优结果,进一步改进后悔界?
  • RQ3在尚未在对抗性成本下被研究过的 bandit 反馈设置下,极小极大后悔是多少?
  • RQ4如何有效降低成本估计中的方差,同时保持偏差控制以实现高概率后悔界?
  • RQ5在 bandit 反馈情况下,为实现最优后悔,需要哪些新颖的算法组件?

主要发现

  • 该论文在完整信息设置下建立了 $O(\sqrt{DT_\star K})$ 的极小极大后悔界,优于 R. Rosenberg 和 Y. Mansour (2020) 的次优边界。
  • 该工作首次为对抗性成本下的 bandit 反馈设置提供了后悔界,实现了 $O(\sqrt{DT_\star SA K})$ 的后悔。
  • 使用偏斜的占用度量空间能够更好地控制策略分布并降低估计误差。
  • 成本估计器中引入的新颖校正项通过引入正偏差来降低方差,增强了 bandit 反馈下的稳定性。
  • 在学习中引入正偏差与在最优策略估计中引入负偏差的结合,是实现最优高概率后悔界的关键。
  • 所提出的各项技术,包括多尺度专家算法和无环化简方法,具有独立研究价值,可能在更广泛场景中具有推广潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。