[論文レビュー] Quantum Architecture Search via Deep Reinforcement Learning
深層強化学習フレームワークが最初から量子ゲート列を構築して目標量子状態を生成する,Bell状態とGHZ状態を用いたA2CとPPOで実証。
Recent advances in quantum computing have drawn considerable attention to building realistic application for and using quantum computers. However, designing a suitable quantum circuit architecture requires expert knowledge. For example, it is non-trivial to design a quantum gate sequence for generating a particular quantum state with as fewer gates as possible. We propose a quantum architecture search framework with the power of deep reinforcement learning (DRL) to address this challenge. In the proposed framework, the DRL agent can only access the Pauli-$X$, $Y$, $Z$ expectation values and a predefined set of quantum operations for learning the target quantum state, and is optimized by the advantage actor-critic (A2C) and proximal policy optimization (PPO) algorithms. We demonstrate a successful generation of quantum gate sequences for multi-qubit GHZ states without encoding any knowledge of quantum physics in the agent. The design of our framework is rather general and can be employed with other DRL architectures or optimization methods to study gate synthesis and compilation for many quantum states.
研究の動機と目的
- 広範な物理知識を必要とせず、量子回路アーキテクチャの自動設計を動機づける。
- エージェントがターゲット状態に到達するように量子回路を段階的に構築するDRLフレームワークを開発する。
- 複数量子ビットのエンタングル状態(BellおよびGHZ)に対するゲート合成能力を実証する。
- ノイズなしおよびノイズありの量子シミュレーションで性能を評価する。
- 他のDRLアーキテクチャや量子状態へのフレームワークの汎用性を探る。
提案手法
- アクションが回路に量子ゲートを追加するRL問題として量子アーキテクチャ探索を定式化する。
- 生成状態と目標状態の忠実度を主要な報酬信号として用いる。
- 各量子ビットに対するパウリア期待値として観測を提供して学習を誘導する。
- Advantage Actor-Critic (A2C) と Proximal Policy Optimization (PPO) を含む方策最適化アルゴリズムを比較する。
- 勾配ベースの最適化(Adam)を用いて、シミュレートされた量子環境でポリシーを訓練する。
- 状態・行動・報酬を管理するカスタマイズされた OpenAI Gym 環境を採用する。
実験結果
リサーチクエスチョン
- RQ1DRLエージェントは最初から量子ゲート列を合成して、許容内の指定ターゲット状態を達成できるか?
- RQ2量子ゲート探索タスクにおける収束速度と安定性の観点でA2CとPPOはどう比較されるか?
- RQ32量子ビットおよび3量子ビット状態のDRL駆動ゲート合成に対するノイズの影響は何か?
- RQ4より大規模な量子ビット系やより複雑なターゲット状態に対してフレームワークはスケーラブルか?
- RQ5エージェントに組み込まれた量子物理知識なしでこのアプローチはどの程度機能するか?
主な発見
- A2CとPPOの双方が、ノイズなし環境で最初からBellとGHZ状態を合成するエージェントを訓練できる。
- PPOは二量子ビットおよび三量子ビットのタスクの両方で、A2Cよりも収束が速く安定性も高くなる。
- ノイズ環境では、PPOはBell状態の合成に対して有効で、忠実度はノイズレベルの影響を受けるが依然として収束する。
- アクション集合は量子ビット数の二次的なスケールで、指数的なアクション増加なしに多量子ビットゲートの合成を可能にする。
- エージェントに詳細な量子物理をエンコードせず、状態忠実度に基づく報酬を通じてゲート列を学習することでフレームワークは成功する。
- 著者らは量子回路設計と分析のための再利用可能なDRLベースの環境を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。