QUICK REVIEW

[논문 리뷰] Quantum reinforcement learning in continuous action space

Shaojun Wu, Shan Jin|arXiv (Cornell University)|2020. 12. 19.

Quantum Computing Algorithms and Architecture참고 문헌 5인용 수 30

한 줄 요약

양자 딥 결정적 정책경사법(Deep Deterministic Policy Gradient, DDPG) 프레임워크를 도입하여 연속 행동 공간의 강화학습을 해결하고, 이를 양자 상태 생성과 고유값 문제에 원샷 정책 학습으로 적용한다.

ABSTRACT

Quantum reinforcement learning (QRL) is a promising paradigm for near-term quantum devices. While existing QRL methods have shown success in discrete action spaces, extending these techniques to continuous domains is challenging due to the curse of dimensionality introduced by discretization. To overcome this limitation, we introduce a quantum Deep Deterministic Policy Gradient (DDPG) algorithm that efficiently addresses both classical and quantum sequential decision problems in continuous action spaces. Moreover, our approach facilitates single-shot quantum state generation: a one-time optimization produces a model that outputs the control sequence required to drive a fixed initial state to any desired target state. In contrast, conventional quantum control methods demand separate optimization for each target state. We demonstrate the effectiveness of our method through simulations and discuss its potential applications in quantum control.

연구 동기 및 목표

양자 문제에서 연속 행동 공간에 RL을 적용하는 도전과제를 동기부여하고, 이산화로 인한 차원 문제 없이 해결한다.
정책과 가치 함수를 표현하기 위해 가변 양자 신경망(Variational Quantum Neural Networks)을 사용하는 양자 DDPG 프레임워크를 제안한다.
원샷 최적화가 어떤 초기 상태든 특정 목표 상태로 이끄는 정책을 생성할 수 있음을 보여준다.
양자 상태 생성 및 고유상 문제에의 응용을 보여주고, 전통적인 양자 제어 및 VQE 방법에 비해 잠재적 이점을 강조한다.

제안 방법

고전 RL 요소를 양자 환경 레지스터와 매개변수화된 행동 유니타리 U_a(θ_t)를 사용하여 양자 구성 요소에 매핑한다.
정책-QNN과 가치-QNN으로 변분 양자 회로(VQC)를 사용하여 연속 행동 공간에서 정책과 Q-함수를 근사한다.
네 개의 QNN(정책, 가치 및 그 대상들)을 포함하는 양자 DDPG 절차를 따르며, 경험 재현 및 대상 네트워크와 함께 학습한다.
초기 상태에서 목표 상태로 환경을 이끄는 일련의 유니타리 게이트를 생성하는 최적 정책을 구성하여 원샷 모델 구성을 가능하게 한다.
CAS에서 환경 상태를 진폭으로 인코딩하고 원샷으로 학습된 정책을 사용하여 제어 시퀀스를 출력함으로써 이산화를 피하고; DAS에서는 양자 DQN 변형을 사용할 수 있다.

실험 결과

연구 질문

RQ1CAS 문제에서 양자 강화학습 알고리즘이 고전적 대비 지수적 혹은 이차적 속도향상을 제공할 수 있는가?
RQ2이산화 없이 연속 행동 공간에서 양자 상태 생성 및 고유상 문제를 효과적으로 해결할 수 있는가?
RQ3QRL 모델을 학습하기 위한 원샷 최적화가 양자 제어 작업에서 임의의 초기 상태를 원하는 목표 상태로 이끄는 데 충분한가?
RQ4양자 환경에서 안정적인 학습과 정확한 정책/가치 추정을 가능하게 하는 양자 신경망(policy-QNN 및 Q-QNN)은 어떻게 작동하는가?

주요 결과

양자 DDPG 프레임워크는 컨티뉴스 행동 공간에서 제어 유니타리의 시퀀스를 출력하는 정책을 학습하여 양자 상태 생성 문제를 해결할 수 있게 한다.
한 큐비트 목표의 경우 학습 후 t=50에서 p50 ≥ 0.99, Δ(p50) ≤ 4.47×10^-5를 달성한다.
두 큐비트 목표의 경우 t=50에서 p50 ≥ 0.98, Δ(p50) ≤ 4.04×10^-7를 달성한다.
이 방법은 또한 하나- 및 이중 큐비트 해밀토니안의 고유값 문제에서 기저상으로의 수렴이 효과적임을 보여주며, 하나-큐비트에서 p50 ≥ 0.99, 두-큐비트에서 p50 ≥ 0.98 및 작은 분산을 나타낸다.
이 프레임워크는 QRL 모델을 구축하기 위한 원샷 최적화를 제공하여, 기존의 양자 제어 방법과 달리 모든 대상 상태에 대해 재최적화하지 않고 임의의 상태 생성을 가능하게 한다.
이 방법은 알려지지 않은 대상 상태의 복제본을 주어 적절한 제어 시퀀스를 출력하여 알려지지 않은 대상 상태를 재구성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.