[論文レビュー] Quantum circuit optimization with deep reinforcement learning
著者らは、ハードウェアの特性を考慮した深層強化学習アプローチを量子回路最適化に適用し、12量子ビットのランダム回路で深さとゲート数の顕著な削減を達成し、より大規模な回路への外挿を示しています。
A central aspect for operating future quantum computers is quantum circuit optimization, i.e., the search for efficient realizations of quantum algorithms given the device capabilities. In recent years, powerful approaches have been developed which focus on optimizing the high-level circuit structure. However, these approaches do not consider and thus cannot optimize for the hardware details of the quantum architecture, which is especially important for near-term devices. To address this point, we present an approach to quantum circuit optimization based on reinforcement learning. We demonstrate how an agent, realized by a deep convolutional neural network, can autonomously learn generic strategies to optimize arbitrary circuits on a specific architecture, where the optimization target can be chosen freely by the user. We demonstrate the feasibility of this approach by training agents on 12-qubit random circuits, where we find on average a depth reduction by 27% and a gate count reduction by 15%. We examine the extrapolation to larger circuits than used for training, and envision how this approach can be utilized for near-term quantum devices.
研究の動機と目的
- NISQデバイスにおけるハードウェア認識制約を伴う量子回路最適化(QCO)を動機づける。
- 自動的にQCO戦略を学習する強化学習(RL)フレームワークを提案する。
- ユーザー定義の目的に基づいて与えられたアーキテクチャ上で任意の回路の最適化を可能にする。
- 12量子ビットのランダム回路で手法を実証し、より大きな回路への外挿を探る。
提案手法
- 回路をダイアグラムとして表現し、QCOをRL問題として定式化する。状態は回路、行動は同値保持変換。
- 硬い(常に有益)と柔らかい(文脈依存)変換規則を用い、エージェントが柔らかい変換を選択した後にすべての硬い変換を剪定として適用する。
- エージェントが回路観察をポリシーと価値関数へ写像するために深層畳み込みネットワーク(DCNN)を用い、AACフレームワークを備えたProximal Policy Optimization(PPO)を可能にする。
- 報酬は回路望ましい性質 q(s) を用いて定義し、回路の成功確率と相関させる。r_t = -(q(s_{t+1}) - q(s_t))。
- 3D畳み込みの観察表現を量子ビットインデックス、モーメント、ゲートクラスの上に採用し、変換をポリシー出力へ結ぶ構造化マッピングによりアクション空間を扱いやすくする。
実験結果
リサーチクエスチョン
- RQ1深層RLエージェントは深さとゲート数を減らしつつ論理的同等性を維持するハードウェア認識的回路変換を学習できるか
- RQ2訓練されたエージェントは訓練サイズを超える大規模回路へどれだけ一般化できるか
- RQ3選択された報酬関数が学習効率と最適化品質に与える影響は何か
- RQ4同じハードウェアモデル下でランダムに拡張された回路に対してRLとシミュレート退火法を比較するとどうなるか
- RQ5近儀期デバイスに関連するゲート集合と接続性の変動をこの手法は扱えるか
主な発見
- 12量子ビットのランダム回路で、エージェントは平均深さを27%、ゲート数を15%削減。
- 訓練は2つのフェーズで行われ、平均深さ d ≈ 27.20、平均ゲート数 n ≈ 97.86 を約 epoch 1000 で達成し、剪定とシミュレート退火より優れていた。
- 訓練済みエージェントは大規模回路へ一般化可能;50量子ビットのランダム回路では、剪定回路から始めて深さを110.84、ゲート数を1616.3に削減(2500変換内)、大規模ステップのシミュレート退火結果と比較可能。
- 同じデータセット上でのシミュレート退火と比較して、RLエージェントはより良いまたは同等の最適化を、はるかに少ないステップで達成し、訓練には substantialな時間がかかる(32 CPUsで6–7日)。
- QAOA-MaxCut回路について、一般エージェントが d を 75 から 68、n を 142 から 138 へ改善、専門エージェントは d=66、n=138 を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。