QUICK REVIEW

[论文解读] Episodic Reinforcement Learning in Finite MDPs: Minimax Lower Bounds Revisited

Omar Darwiche Domingues, Pierre Ménard|arXiv (Cornell University)|Oct 7, 2020

Evolutionary Algorithms and Applications被引用 23

一句话总结

本文為具有階段依賴轉移的有限MDP中的回合制強化學習建立了新的極小化最大下界，引入了一種新型困難MDP類別，從而推導出 (ε, δ)-PAC 最佳策略識別的緊湊 Ω((H³SA/ε²) log(1/δ)) 樣本複雜度下界，以及匹配的 Ω(√(H³SAT)) 期望損失下界。這些結果使用資訊理論工具與基於 A-元樹的結構化獎勵差異構造進行證明，為此類設定下的非平穩MDP提供了首個嚴謹的下界。

ABSTRACT

In this paper, we propose new problem-independent lower bounds on the sample complexity and regret in episodic MDPs, with a particular focus on the non-stationary case in which the transition kernel is allowed to change in each stage of the episode. Our main contribution is a novel lower bound of $\\Omega((H^3SA/\\epsilon^2)\\log(1/\\delta))$ on the sample complexity of an $(\\varepsilon,\\delta)$-PAC algorithm for best policy identification in a non-stationary MDP. This lower bound relies on a construction of "hard MDPs" which is different from the ones previously used in the literature. Using this same class of MDPs, we also provide a rigorous proof of the $\\Omega(\\sqrt{H^3SAT})$ regret bound for non-stationary MDPs. Finally, we discuss connections to PAC-MDP lower bounds.

研究动机与目标

透過為具有階段依賴（非平穩）轉移核的MDP建立緊湊的極小化最大下界，彌補文獻中的缺口。
使用單一類型的困難MDP，提供樣本複雜度與期望損失下界的一體化、嚴謹且完整的證明框架。
將先前僅適用於平穩MDP的結果加以拓展，證明非平穩回合制MDP中 (ε, δ)-PAC 最佳策略識別的首個樣本複雜度下界。
透過證明所推導的下界與先進算法（如 BPI-UCBVI 與樂觀Q-learning）的上界一致，驗證現有算法的最優性。

提出的方法

基於具有單一高獎勵葉節點與階段間結構化轉移差異的 A-元樹，構造一種新型困難MDP，以模擬非平穩性。
使用資訊理論工具，包括KL散度與Pinsker不等式，將不同MDP實例間的策略表現關聯起來。
定義一組MDP族 M(h*,ℓ*,a*)，其中最佳策略取決於隱藏的階段 h*、葉節點 ℓ* 與動作 a*，並分析代理在階段 h* 時對 (sℓ*, a*) 的預期訪問次數。
利用柯西-施瓦茨不等式與KL散度分解，推導所有MDP實例中對關鍵狀態訪問次數的上界。
最佳化擾動參數 ε 以最大化期望損失的下界，進而導出 Ω(√(H³SAT)) 的下界。
透過將策略識別錯誤機率與MDP分佈之間的總變異距離關聯，證明樣本複雜度下界。

实验结果

研究问题

RQ1具有階段依賴轉移的回合制MDP中，(ε, δ)-PAC 最佳策略識別的極小化最大樣本複雜度為何？
RQ2能否為非平穩回合制MDP嚴謹地建立一個 Ω(√(H³SAT)) 階數的緊湊期望損失下界？
RQ3當轉移概率隨階段變動時，困難MDP的構造與平穩情況有何不同？
RQ4Ω(√(H³SAT)) 的期望損失下界是否緊湊？是否與現有樂觀算法的性能一致？
RQ5是否可使用相同的困難MDP構造同時推導樣本複雜度與期望損失下界？

主要发现

本文為非平穩回合制MDP中 (ε, δ)-PAC 最佳策略識別建立了新的極小化最大下界 Ω((H³SA/ε²) log(1/δ))。
首次嚴謹證明了非平穩回合制MDP中 Ω(√(H³SAT)) 期望損失下界，確認了Jin等人（2018）的主張，而此前該主張缺乏完整證明。
下界透過基於具有階段依賴獎勵結構的 A-元樹的新型困難MDP類別推導，此構造與先前假設平穩轉移的構造顯著不同。
相同的困難MDP構造可同時產生樣本複雜度與期望損失下界，統一了兩種關鍵性能指標的分析。
所推導的下界與現有算法的上界一致：BPI-UCBVI 對應樣本複雜度，樂觀Q-learning 對應期望損失，顯示其最優性。
結果對樹深度 d 的假設具有魯棒性，只要 d ≤ H/3，下界仍為 Ω(√(H³SAT))；否則，下界會指數級惡化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。