QUICK REVIEW

[论文解读] Quantum Policy Gradient Algorithms

Sofiène Jerbi, Arjan Cornelissen|arXiv (Cornell University)|Dec 19, 2022

Quantum Computing Algorithms and Architecture被引用 7

一句话总结

本文提出了一类量子策略梯度算法，在具有量子访问能力的强化学习环境中，实现了参数化量子策略训练的样本复杂度高达二次加速。通过利用对轨迹的量子预言机访问，并应用量子多变量蒙特卡洛方法与数值梯度估计，当策略满足平滑性条件时，这些算法可实现完整的二次加速——而常见参数化量子线路（如 raw-PQC 和 softmax1-PQC 策略）恰好满足这些条件。

ABSTRACT

Understanding the power and limitations of quantum access to data in machine learning tasks is primordial to assess the potential of quantum computing in artificial intelligence. Previous works have already shown that speed-ups in learning are possible when given quantum access to reinforcement learning environments. Yet, the applicability of quantum algorithms in this setting remains very limited, notably in environments with large state and action spaces. In this work, we design quantum algorithms to train state-of-the-art reinforcement learning policies by exploiting quantum interactions with an environment. However, these algorithms only offer full quadratic speed-ups in sample complexity over their classical analogs when the trained policies satisfy some regularity conditions. Interestingly, we find that reinforcement learning policies derived from parametrized quantum circuits are well-behaved with respect to these conditions, which showcases the benefit of a fully-quantum reinforcement learning framework.

研究动机与目标

设计加速具有量子访问能力环境的强化学习中策略梯度训练的量子算法。
识别量子算法在样本复杂度上相对于经典方法实现完整二次加速的条件。
证明参数化量子线路（PQCs）自然满足这些平滑性条件，从而实现高效的量子训练。
为策略梯度方法中的数值与解析梯度估计提供量子加速。
在合理的 MDP 假设下，建立量子与经典策略梯度估计器的理论查询复杂度边界。

提出的方法

利用对马尔可夫决策过程（MDPs）的预言机量子访问，通过单位操作 UP 和 UR 实现对轨迹的叠加。
使用来自 [25, 26] 的量子子程序进行量子数值梯度估计，要求导数平滑性有界（D ≤ 1）以实现二次加速。
采用来自 [27, 28] 的量子多变量蒙特卡洛估计进行解析梯度估计，要求对数策略梯度的 ℓp-范数有界（Bp）。
通过策略与奖励预言机的单位操作实现对梯度估计器的量子访问，并使用振幅估计算法保证精度。
以策略参数 d、时域 T、折扣因子 γ、最大回报 |R|max 以及平滑性参数 D 或 Bp 表示查询复杂度边界。
分析数值与解析梯度估计，表明量子版本的复杂度分别达到 eO(√d) 和 eO(d^{ξ(p)})，而经典版本分别为 eO(d) 和 eO(Bp^2)。

实验结果

研究问题

RQ1在何种条件下，量子算法可在策略梯度强化学习中实现样本复杂度的二次加速？
RQ2能否证明参数化量子线路（PQCs）满足量子加速所需的平滑性条件？
RQ3量子与经典查询复杂度相对于关键参数（如策略维度 d、时域 T 和回报幅度 |R|max）的缩放关系如何？
RQ4对环境的量子访问是否能通过在多个轨迹上实现叠加，从而在数值与解析设置中加速梯度估计？
RQ5折扣因子 γ 与时域 T 在量子策略梯度算法性能中起什么作用？

主要发现

当价值函数具有有界导数平滑性（D ≤ 1）时，量子数值梯度估计相对于经典方法实现了完整的二次加速，该条件在 raw-PQC 策略中成立。
当 p ∈ [1, 2] 且对数策略梯度的 ℓp-范数有界（Bp ≤ 2）时，量子解析梯度估计对 p ∈ [1, 2] 实现了完整的二次加速，该条件在 softmax1-PQC 策略中成立。
数值梯度估计的量子查询复杂度为 eO(√d DT³|R|max / (ε(1−γ)))，而经典版本的复杂度为 eO(d D²T⁵|R|²max / (ε²(1−γ)²))。
对于解析梯度估计，量子复杂度为 eO(d^{ξ(p)} BpT|R|max / (ε(1−γ)))，其中 ξ(p) = max{0, 1/2 − 1/p}，而经典版本的复杂度为 eO((BpT|R|max / (ε(1−γ)))²)。
结果表明，对于行为良好的量子策略，量子策略梯度算法可在样本复杂度上实现二次加速，特别是源自 PQCs 的策略。
若放松 Gèvrey 条件的表述，数值梯度算法的复杂度可潜在提升 T 倍，从而使其 T-缩放与解析方法保持一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。