QUICK REVIEW

[논문 리뷰] Quantum Architecture Search via Deep Reinforcement Learning

En-Jui Kuo, Yao-Lung L. Fang|arXiv (Cornell University)|2021. 04. 15.

Quantum Computing Algorithms and Architecture참고 문헌 91인용 수 37

한 줄 요약

처음부터 양자 게이트 시퀀스를 구성하여 목표 양자 상태를 생성하는 심층 강화 학습 프레임워크로, A2C와 PPO를 사용하여 벨 상태와 GHZ 상태에서 시연되었습니다.

ABSTRACT

Recent advances in quantum computing have drawn considerable attention to building realistic application for and using quantum computers. However, designing a suitable quantum circuit architecture requires expert knowledge. For example, it is non-trivial to design a quantum gate sequence for generating a particular quantum state with as fewer gates as possible. We propose a quantum architecture search framework with the power of deep reinforcement learning (DRL) to address this challenge. In the proposed framework, the DRL agent can only access the Pauli-$X$, $Y$, $Z$ expectation values and a predefined set of quantum operations for learning the target quantum state, and is optimized by the advantage actor-critic (A2C) and proximal policy optimization (PPO) algorithms. We demonstrate a successful generation of quantum gate sequences for multi-qubit GHZ states without encoding any knowledge of quantum physics in the agent. The design of our framework is rather general and can be employed with other DRL architectures or optimization methods to study gate synthesis and compilation for many quantum states.

연구 동기 및 목표

광범위한 물리 지식 없이 양자 회로 아키텍처의 자동 설계를 촉진한다.
에이전트가 점진적으로 양자 회로를 구성해 목표 상태에 도달하도록 하는 DRL 프레임워크를 개발한다.
다중 큐비트 얽힘 상태(벨 및 GHZ 상태)에 대한 게이트 합성 능력을 시연한다.
무잡음 및 잡음 있는 양자 시뮬레이션에서 성능을 평가한다.
다른 DRL 아키텍처 및 양자 상태에 대한 프레임워크의 일반성을 탐구한다.

제안 방법

양자 아키텍처 탐색을 회로에 양자 게이트를 추가하는 동작으로 구성하는 RL 문제로 형식화한다.
생성된 상태와 목표 상태 사이의 Fidelity를 주요 보상 신호로 사용한다.
학습을 안내하기 위해 각 큐비트의 파울 기대값으로 관측치를 제공한다.
Advantage Actor-Critic(A2C)와 Proximal Policy Optimization(PPO)을 포함한 정책 최적화 알고리즘을 비교한다.
시뮬레이션된 양자 환경에서 기울기 기반 최적화(Adam)로 정책을 학습한다.
상태, 동작, 보상을 관리하기 위해 맞춤형 OpenAI Gym 환경을 사용한다.

실험 결과

연구 질문

RQ1DRL 에이전트가 처음부터 양자 게이트 시퀀스를 합성하여 허용 오차 내의 특정 목표 상태를 달성할 수 있는가?
RQ2양자 게이트 탐색 task에서 수렴 속도와 안정성 측면에서 A2C와 PPO는 어떻게 비교되는가?
RQ3두-세 큐비트 상태에 대한 DRL 주도 게이트 합성에 대한 잡음의 영향은 무엇인가?
RQ4프레임워크가 더 큰 큐비트 시스템과 더 복잡한 목표 상태로 확장될 수 있는가?
RQ5에이전트에 임베디드 양자 물리 지식이 없더라도 이 접근법이 어느 정도까지 작동할 수 있는가?

주요 결과

A2C와 PPO 모두 무잡음 환경에서 벨 및 GHZ 상태를 처음부터 합성하도록 에이전트를 훈련시킬 수 있다.
PPO는 두 큐비트와 세 큐비트 작업 모두에서 A2C보다 더 빠른 수렴과 더 큰 안정성을 달성한다.
잡음 있는 환경에서도 PPO는 벨 상태 합성에 효과적이며 Fidelity는 잡음 수준에 영향을 받지만 여전히 수렴한다.
동작 집합은 큐비트 수의 이차적으로 확장되어 다큐비트 게이트 합성을 가능하게 하며 지수적 동작 증가를 피한다.
프레임워크는 에이전트에 상세한 양자 물리를 인코딩하지 않고도 작동하며 상태 Fidelity에 바탕한 보상으로 게이트 시퀀스를 학습한다.
저자들은 양자 회로 디자인 및 분석을 위한 재사용 가능한 DRL 기반 환경을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.