[논문 리뷰] Quantum circuit optimization with deep reinforcement learning
저자는 하드웨어 구체성을 고려한 심층 강화학습 접근법을 통해 양자 회로 최적화를 제시하고, 12-큐비트 무작위 회로에서 깊이와 게이트 수를 크게 축소하며 더 큰 회로로의 외삽(extrapolation)을 보인다.
A central aspect for operating future quantum computers is quantum circuit optimization, i.e., the search for efficient realizations of quantum algorithms given the device capabilities. In recent years, powerful approaches have been developed which focus on optimizing the high-level circuit structure. However, these approaches do not consider and thus cannot optimize for the hardware details of the quantum architecture, which is especially important for near-term devices. To address this point, we present an approach to quantum circuit optimization based on reinforcement learning. We demonstrate how an agent, realized by a deep convolutional neural network, can autonomously learn generic strategies to optimize arbitrary circuits on a specific architecture, where the optimization target can be chosen freely by the user. We demonstrate the feasibility of this approach by training agents on 12-qubit random circuits, where we find on average a depth reduction by 27% and a gate count reduction by 15%. We examine the extrapolation to larger circuits than used for training, and envision how this approach can be utilized for near-term quantum devices.
연구 동기 및 목표
- NISQ 디바이스의 하드웨어 인식 제약을 고려한 양자 회로 최적화(QCO) 동기 부여.
- QCO 전략을 자율적으로 학습하는 강화학습(RL) 프레임워크를 제안.
- 주어진 아키텍처에서 임의의 회로를 사용자가 정의한 목표로 최적화할 수 있도록 지원.
- 12-큐비트 무작위 회로에서 접근 방식을 시연하고 더 큰 회로로의 외삽 가능성을 탐구.
제안 방법
- 회로를 다이어그램으로 표현하고 QCO를 상태가 회로이고 행동이 등가 유지 변환인 RL 문제로 형식화한다.
- 하드(언제나 유익한) 변환 규칙과 소프트(맥락 의존) 변환 규칙을 사용한다; 가지치기는 에이전트가 소프트 변환을 선택한 후 모든 하드 변환을 적용한다.
- 에이전트가 회로 관찰을 정책과 가치 함수로 매핑하도록 2D 합성곱 신경망(DCNN)을 활용하여 Proximal Policy Optimization(PPO)을 AAC 프레임워크와 함께 사용한다.
- 보상은 회로가 바라는 특성 q(s)로 정의하여 회로 성공 확률과 상관관계가 있으며, r_t = -(q(s_{t+1}) - q(s_t))를 사용한다.
- 변환을 정책 출력으로의 구조화된 매핑과 함께 큐비트 인덱스, 모멘트, 게이트 클래스에 대한 3D 합성곱 관찰 표현을 채택하여 행동 공간을 합리적으로 유지한다.
실험 결과
연구 질문
- RQ1깊은 RL 에이전트가 로직 등가성을 보존하면서 깊이와 게이트 수를 감소시키는 하드웨어 인식 회로 변환을 학습할 수 있는가?
- RQ2학습된 에이전트가 학습 크기를 넘어서는 더 큰 회로에 얼마나 잘 일반화하는가?
- RQ3선택한 보상 함수가 학습 효율성과 최적화 품질에 미치는 영향은 무엇인가?
- RQ4동일 하드웨어 모델 하에서 무작위 확장 회로에 대해 RL과 시뮬레이티드 어닐링을 비교하면 어떤 차이가 있는가?
- RQ5향후 장비에 관련된 가변 게이트 세트와 연결성은 이 접근법을 어떻게 다룰 수 있는가?
주요 결과
- 12-큐비트 무작위 회로에서 에이전트는 평균 깊이 27% 감소와 게이트 수 15% 감소를 달성했다.
- 학습은 두 단계로 구성되었고, 대략 에폭 1000에서 평균 깊이 d ≈ 27.20, 평균 게이트 수 n ≈ 97.86에 도달하며 pruning과 시뮬레이티드 어닐링보다 성능이 우수했다.
- 학습된 에이전트는 더 큰 회로로 일반화한다; 50-큐비트 무작위 회로에서 pruned 회로에서 시작하여 2500번의 변환 내에 깊이를 110.84로, 게이트 수를 1616.3으로 줄이며 대형 스텝 시뮬레이티드 어닐링 결과에 버금간다.
- 동일 데이터셋에서 시뮬레이티드 어닐링과 비교할 때 RL 에이전트는 더 적은 스텝으로 더 낫거나 동등한 최적화를 달성하고, 학습에는 상당한 시간이 필요하다(32 CPUs에서 6–7일).
- QAOA-MaxCut 회로의 경우 일반 에이전트가 개선을 발견했고(예: d 75→68, n 142→138), 특수화된 에이전트는 d=66, n=138을 달성했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.