QUICK REVIEW

[논문 리뷰] Policy Gradient based Quantum Approximate Optimization Algorithm

Jiahao Yao, Marin Bukov|arXiv (Cornell University)|2020. 02. 04.

Quantum Computing Algorithms and Architecture참고 문헌 59인용 수 27

한 줄 요약

이 논문은 노이즈가 있는 중규모 양자(NISQ) 장치에서 변분 양자 알고리즘(QAOA)의 변분 매개변수를 최적화하기 위한 정책 그래เดียน트 강화학습 접근법인 PG-QAOA를 제안한다. QAOA 매개변수 최적화 문제를 연속 제어 문제로 간주함으로써 PG-QAOA는 명시적 그래디언트 계산을 피하고, 특히 측정 노이즈와 하미르토니안 노이즈에 대해 뛰어난 내성성을 보이며, 기존의 Nelder-Mead, CMA, PSO와 같은 전통적 최적화 방법보다 노이즈 조건 하에서 다중 큐비트 상태 전송 작업에서 뛰어난 성능을 보인다.

ABSTRACT

The quantum approximate optimization algorithm (QAOA), as a hybrid quantum/classical algorithm, has received much interest recently. QAOA can also be viewed as a variational ansatz for quantum control. However, its direct application to emergent quantum technology encounters additional physical constraints: (i) the states of the quantum system are not observable; (ii) obtaining the derivatives of the objective function can be computationally expensive or even inaccessible in experiments, and (iii) the values of the objective function may be sensitive to various sources of uncertainty, as is the case for noisy intermediate-scale quantum (NISQ) devices. Taking such constraints into account, we show that policy-gradient-based reinforcement learning (RL) algorithms are well suited for optimizing the variational parameters of QAOA in a noise-robust fashion, opening up the way for developing RL techniques for continuous quantum control. This is advantageous to help mitigate and monitor the potentially unknown sources of errors in modern quantum simulators. We analyze the performance of the algorithm for quantum state transfer problems in single- and multi-qubit systems, subject to various sources of noise such as error terms in the Hamiltonian, or quantum uncertainty in the measurement process. We show that, in noisy setups, it is capable of outperforming state-of-the-art existing optimization algorithms.

연구 동기 및 목표

. 논문은 관측 불가능한 양자 상태, 접근 불가능한 도함수, 노이즈 있는 측정과 같은 현실적인 NISQ 제약 조건 하에서 QAOA 매개변수 최적화 문제를 해결하고자 한다.
. 정책 그래디언트 강화학습(RL)이 노이즈가 많은 양자 제어 환경에서 전통적 최적화 방법의 대안으로 유용한지 여부를 탐구하고자 한다.
. 명시적 그래디언트 계산이나 매끄러운 성질에 대한 가정에 의존하지 않는 노이즈에 강건한 변분 양자 알고리즘 최적화 프레임워크를 개발하고자 한다.
. 연구는 하미르토니안 오차와 양자 측정 불확실성과 같은 다양한 노이즈 원인 하에서 단일 및 다중 큐비트 시스템의 양자 상태 전송 문제를 대상으로 한다.

제안 방법

. 방법은 QAOA 매개변수 최적화 문제를 정책 그래디언트 접근법을 사용하여 연속 제어 문제로 공식화하며, 정책은 QAOA 각도에 대한 가우시안 분포로 매개변수화된다.
. 정책 그래디언트는 REINFORCE를 통해 추정되며, 샘플링된 에피소드를 사용하여 기대 보상(정밀도)을 추정하고, 확률적 그래디언트 상승을 통해 정책 매개변수를 업데이트한다.
. QAOA 회로는 평균과 표준편차가 각각 절단된 정규분포와 로그정규분포에서 추출된 가중치로 미분 가능하게 매개변수화된다.
. 각 반복에서 M=2048(또는 N=10일 경우 M=256)개의 에피소드를 배치로 사용하며, 10^4회 반복 동안 정책을 최적화한다.
. 이 방법은 목적 함수의 일阶 또는 이阶 도함수 계산을 피하므로, 노이즈가 있거나 매끄럽지 않은 보상 곡면에 적합하다.
. 방법은 N=3에서 10 큐비트 시스템에 대해 p=60을 고정하고, 정밀도 추정에서 가우시안 노이즈와 양자 측정 노이즈 하에서 성능을 평가한다.

실험 결과

연구 질문

RQ1. 도함수가 존재하지 않거나 신뢰할 수 없을 때, 정책 그래디언트 강화학습이 노이즈가 있는 환경에서 QAOA 매개변수를 효과적으로 최적화할 수 있는가?
RQ2. 다중 큐비트 시스템에서 노이즈 조건 하에서 Nelder-Mead, Powell, CMA, PSO와 같은 고전적 유도 기반 최적화 방법과 비교해 PG-QAOA는 어떻게 성능을 내는가?
RQ3. 기존 최적화 알고리즘보다 PG-QAOA는 측정 노이즈와 하미르토니안 오차에 대해 더 강건한가?
RQ4. 양자 측정 불확실성으로 인해 목적 함수가 비매끄럽거나 불연속적일 경우, 정책 그래디언트 접근법은 성능을 유지할 수 있는가?
RQ5. 그래디언트 정보가 필요 없음에도 불구하고, PG-QAOA는 순차적 볼록 프로그래밍(SCP)과 같은 더 복잡한 방법과 비교해 유사하거나 더 높은 정밀도를 달성할 수 있는가?

주요 결과

. PG-QAOA는 가우시안 노이즈와 양자 측정 노이즈 조건 하에서 Nelder-Mead, Powell, CMA, PSO보다 정밀도 최적화에서 뛰어난 성능을 보이며, 큐비트 수가 증가할수록 더욱 두드러진다.
. 측정 노이즈가 존재할 경우, 다른 알고리즘보다 성능 저하가 현저히 적어, 노이즈 있는 보상 추정에 대해 뛰어난 내성성을 보인다.
. p=60을 고정한 N=6, 8, 10 큐비트 시스템에서, 최대 달성 가능한 정밀도가 감소할 것으로 예상됨에도 불구하고 PG-QAOA는 다른 방법보다 더 높은 정밀도를 달성한다.
. 다양한 노이즈 수준에서 안정적인 성능을 유지하며, 시스템 크기에 따라 잘 스케일링되어, 더 큰 NISQ 장치에 적합함을 보여준다.
. PG-QAOA는 명시적 그래디언트 계산이 필요 없음에도 불구하고, SCP와 같은 고도의 유도 기반 방법과 유사한 성능을 달성하며, 실세계의 노이즈 있는 양자 하드웨어에서 실용적인 이점을 보여준다.
. 목적 함수가 비매끄럽거나 노이즈가 날 경우에도, 보상 신호의 불확실성에 대한 내성성 덕분에 알고리즘이 효과적으로 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.