[論文レビュー] Practical and efficient quantum circuit synthesis and transpiling with Reinforcement Learning
この論文は強化学習(RL)を用いて量子回路を合成・ルーティングする手法を導入し、Clifford、Linear Function、Permutation回路でほぼ最適な結果を達成し、ルーティングのオーバーヘッドを大幅に削減し、SATソルバーよりはるかに高速に動作する。
This paper demonstrates the integration of Reinforcement Learning (RL) into quantum transpiling workflows, significantly enhancing the synthesis and routing of quantum circuits. By employing RL, we achieve near-optimal synthesis of Linear Function, Clifford, and Permutation circuits, up to 9, 11 and 65 qubits respectively, while being compatible with native device instruction sets and connectivity constraints, and orders of magnitude faster than optimization methods such as SAT solvers. We also achieve significant reductions in two-qubit gate depth and count for circuit routing up to 133 qubits with respect to other routing heuristics such as SABRE. We find the method to be efficient enough to be useful in practice in typical quantum transpiling pipelines. Our results set the stage for further AI-powered enhancements of quantum computing workflows.
研究の動機と目的
- AIツールを量子計算ワークフローへ統合してトランスパイルと回路最適化を強化することを動機付ける。
- Clifford、Linear Function、Permutation回路がデバイス接続性の制約の下でほぼ最適な回路合成を生む汎用RLフレームワークを開発する。
- RL主導の回路ルーティングを実証し、二量子ビットゲート深さとカウントを改善しつつ計算効率を維持する。
- 実世界のトランスパイルパイプラインにおけるRL手法の実用性を示し、スケーラビリティと既存ツールとの統合について議論する。
提案手法
- 回路合成を逐次決定問題として framing し、エージェントが演算子を恒等になるようゲートを選択する。
- カリキュラム学習を用いて難易度の高いターゲット演算子に段階的に取り組ませ、恒等到達を報酬、ゲート数/深さにはペナルティを課す。
- 推論戦略には、エージェントの出力確率に基づく貪欲法、サンプリング、トップ-k/トップ-pゲート選択を含む。
- Clifford回路をClifford tableaux(行列のみ、位相は無視)で表現し、接続性制約の下で演算子表現をゲート作用へ写像するニューラルネットを訓練する。
- RLフレームワークを拡張して回路ルーティングを扱い、SWAPをアクションとして配置とゲート指標を最適化する。
- RLベースの手法をSATソルバーやヒューリスティック手法と比較し、Clifford、Permutation、Linear Function回路およびルーティングタスクでベンチマークする。

実験結果
リサーチクエスチョン
- RQ1ネイティブなデバイス制約と接続性の下で、強化学習はほぼ最適なClifford、Linear Function、Permutation回路を合成できるか。
- RQ2SABREのような既存ルーティングヒューリスティクスと比べて、RLベースの回 routingは二量子ビットゲート深さとカウントの性能はどうか。
- RQ3実時間とスケーラビリティの観点から、RLアプローチは実際の量子トランスパイルパイプラインへの統合に実用的か。
- RQ4より大きな量子ビット数・回路サイズに拡張したとき、RL合成とルーティングの性能とスケーラビリティの限界は何か。
- RQ5単一のRLフレームワークは異なる回路ファミリと接続グラフを超えて一般化できるか、それともトポロジー特有の訓練が必要か。
主な発見
- RL合成は、制約付き接続性でのClifford回路におけるCNOTカウントと深さをほぼ最適に達成する(例として7-量子ビットCliffordのH接続性が挙げられる)。
- Permutation回路では、8-Lトポロジーと65-HH/27-HH変種のベンチマークで100%最適なSWAPカウントと深さを達成し、SATソルバーよりはるかに高速な実行時間を示す。
- Linear Function回路では9量子ビットまでほぼ最適な結果を示し、Cliffordは11量子ビットまで、Permutationは65量子ビットまで、ルーティングは133量子ビットまで実証。
- RLルーティングはBIPベースのルーティングより約20%のCNOT深さ削減を達成し、8–10量子ボリューム回路を線形接続性へルーティングした際にはCNOTカウントを維持またはわずかに改善する。8回の反復RLルーティングは標準トランスパイラより深さとゲート数で優れる。
- 一般的なRLルーティングは、133量子ビット回路をIBM Torinoトポロジーへルーティングする際、CNOT深さを約40%低減し、2量子ビットゲート数を約10%低減する。これはQiskit SDKレベル-3トランスパイラと比較した。
- この手法はSATベースの最適化より桁違いに高速に動作し(例:秒 vs 時間)、ヒューリスティクスに対して実質的な品質向上を提供し、AI対応トランスパイルワークフローへの実用的展開に適している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。