Skip to main content
QUICK REVIEW

[论文解读] Quantum reinforcement learning in continuous action space

Shaojun Wu, Shan Jin|arXiv (Cornell University)|Dec 19, 2020
Quantum Computing Algorithms and Architecture参考文献 5被引用 30
一句话总结

引入一个量子深度确定性策略梯度(DDPG)框架来解决连续动作空间中的强化学习,将其应用于量子态生成和本征值问题,并实现一次性策略学习。

ABSTRACT

Quantum reinforcement learning (QRL) is a promising paradigm for near-term quantum devices. While existing QRL methods have shown success in discrete action spaces, extending these techniques to continuous domains is challenging due to the curse of dimensionality introduced by discretization. To overcome this limitation, we introduce a quantum Deep Deterministic Policy Gradient (DDPG) algorithm that efficiently addresses both classical and quantum sequential decision problems in continuous action spaces. Moreover, our approach facilitates single-shot quantum state generation: a one-time optimization produces a model that outputs the control sequence required to drive a fixed initial state to any desired target state. In contrast, conventional quantum control methods demand separate optimization for each target state. We demonstrate the effectiveness of our method through simulations and discuss its potential applications in quantum control.

研究动机与目标

  • 动机并解决在量子问题中将RL应用于连续动作空间时,由于离散化引起的维度问题。
  • 提出一个使用变分量子神经网络来表示策略和价值函数的量子DDPG框架。
  • 证明一次性优化可以生成一个策略,使其能够将任何初始状态驱动到指定的目标状态。
  • 展示在量子态生成和本征态问题上的应用,并强调相对于传统量子控制和VQE方法的潜在优势。

提出的方法

  • 使用量子环境寄存器和参数化作用量算符U_a(θ_t)将经典RL元素映射到量子组件。
  • 使用变分量子电路(VQC)作为策略-QNN和价值-QNN,以近似连续动作空间中的策略和Q函数。
  • 按照四个QNN(策略、价值及其目标网络)的量子DDPG程序,使用经验回放和目标网络进行训练。
  • 构建最优策略以生成一系列单位门,将环境从初始状态驱动到目标状态,从而实现一次性模型构建。
  • 在CAS中,通过将环境状态编码到振幅并使用一次性学习的策略输出控制序列来避免离散化;在DAS中,可以使用量子DQN变体。

实验结果

研究问题

  • RQ1量子强化学习算法是否能在CAS问题上相对于经典方法提供指数级或平方级的加速?
  • RQ2量子DDPG框架是否能够在不进行离散化的情况下有效解决连续动作空间中的量子态生成和本征态问题?
  • RQ3一次性优化以学习QRL模型是否足以在量子控制任务中将任意初始状态驱动到期望目标状态?
  • RQ4量子神经网络(策略-QNN和Q-QNN)如何在量子环境中实现稳定学习和准确的策略/价值估计?

主要发现

  • 量子DDPG框架通过学习一个输出一系列控制单位门的策略,使其能够在连续动作空间中解决量子态生成问题。
  • 对于一量子比特目标,训练后方法在t=50时达到p50≥0.99且Δ(p50)≤4.47×10^-5。
  • 对于两量子比特目标,方法在t=50时达到p50≥0.98且Δ(p50)≤4.04×10^-7。
  • 该方法在一量子比特和两量子比特哈密顿量的本征值问题中亦表现出有效收敛到基态,且p50≥0.99(单量子比特)和p50≥0.98(双量子比特)且方差较小。
  • 该框架提供一次性优化来构建QRL模型,使得在不为每个目标态重新优化的情况下实现任意态的生成,与传统量子控制方法不同。
  • 该方法在给出未知目标态的拷贝后,通过输出合适的控制序列,可以重建未知目标态。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。