Skip to main content
QUICK REVIEW

[论文解读] Provably adaptive reinforcement learning in metric spaces

Tongyi Cao, Akshay Krishnamurthy|arXiv (Cornell University)|Jun 18, 2020
Advanced Bandit Algorithms Research被引用 3
一句话总结

本文通過改進 Sinclair 等人(2019)的方法,提出了一種在度量空間中具有可證明自適應性的強化學習算法,表明 regret 與 zooming 維度成比例——這是一種比覆蓋維度更緊緻的近似最優動作集的度量。主要貢獻是在度量空間強化學習中首次實現自適應 regret 保證,優於以往的非自適應邊界。

ABSTRACT

We study reinforcement learning in continuous state and action spaces endowed with a metric. We provide a refined analysis of a variant of the algorithm of Sinclair, Banerjee, and Yu (2019) and show that its regret scales with the \emph{zooming dimension} of the instance. This parameter, which originates in the bandit literature, captures the size of the subsets of near optimal actions and is always smaller than the covering dimension used in previous analyses. As such, our results are the first provably adaptive guarantees for reinforcement learning in metric spaces.

研究动机与目标

  • 在連續度量空間中開發具有可證明自適應性的強化學習算法。
  • 改進 Sinclair、Banerjee 和 Yu(2019)的算法以實現更優異的 regret 分析。
  • 表明 regret 的增長與 zooming 維度成比例,而非覆蓋維度。
  • 在度量空間的強化學習中建立首個自適應 regret 界。

提出的方法

  • 將 Sinclair、Banerjee 和 Yu 算法的一種變體適配至具有度量結構的度量空間中運行。
  • 使用 zooming 維度作為近似最優動作集複雜度的度量,其本質上小於覆蓋維度。
  • 應用一種改進的 regret 分析,利用度量空間的幾何結構。
  • 引入一種動態採樣策略,聚焦於具有高潛在回報的區域,並由 zooming 維度引導。
  • 採用基於度量的劃分方案,在連續的狀態與動作空間中平衡探索與利用。

实验结果

研究问题

  • RQ1強化學習算法是否能在度量空間中實現自適應 regret 界?
  • RQ2在強化學習中,zooming 維度是否比覆蓋維度提供更緊緻的學習複雜度表徵?
  • RQ3對現有算法的改進分析是否能在連續度量空間中實現更優異的 regret 保證?
  • RQ4是否可能設計出一種具有可證明自適應性的強化學習算法,使其能適應動作空間的本質複雜度?

主要发现

  • 該算法的 regret 與 zooming 維度成比例,而 zooming 維度始終小於或等於覆蓋維度。
  • 所提出的分析在度量空間強化學習中首次實現了可證明的自適應 regret 保證。
  • 該算法能適應問題的本質複雜度,更聚焦於具有近似最優動作的區域。
  • 在此背景下,zooming 維度作為問題難度的度量比覆蓋維度更具資訊量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。