Skip to main content
QUICK REVIEW

[論文レビュー] Variational quantum policies for reinforcement learning.

Sofiène Jerbi, Casper Gyurik|arXiv (Cornell University)|Mar 9, 2021
Quantum Computing Algorithms and Architecture参考文献 45被引用数 30
ひとこと要約

本稿では、強化学習のポリシーとして変分量子回路を提案し、量子方策勾配法を用いた訓練を実証する。古典的困難性仮定の下で特定のタスクにおいて証明可能な量子優位性を確立し、ベンチマーク環境において古典的ニューラルネットワークポリシーに比べて実験的に優れた性能を示す。

ABSTRACT

Variational quantum circuits have recently gained popularity as quantum machine learning models. While considerable effort has been invested to train them in supervised and unsupervised learning settings, relatively little attention has been given to their potential use in reinforcement learning. In this work, we leverage the understanding of quantum policy gradient algorithms in a number of ways. First, we investigate how to construct and train reinforcement learning policies based on variational quantum circuits. We propose several designs for quantum policies, provide their learning algorithms, and test their performance on classical benchmarking environments. Second, we show the existence of task environments with a provable separation in performance between quantum learning agents and any polynomial-time classical learner, conditioned on the widely-believed classical hardness of the discrete logarithm problem. We also consider more natural settings, in which we show an empirical quantum advantage of our quantum policies over standard neural-network policies. Our results constitute a first step towards establishing a practical near-term quantum advantage in a reinforcement learning setting. Additionally, we believe that some of our design choices for variational quantum policies may also be beneficial to other models based on variational quantum circuits, such as quantum classifiers and quantum regression models.

研究の動機と目的

  • 強化学習のための変分量子回路を用いたポリシーの設計と訓練を行う。
  • 特定のタスク環境において、量子ポリシーが古典的学習者を上回るかどうかを調査する。
  • 古典的ベンチマーク環境における標準的ニューラルネットワークポリシーに比べて、量子ポリシーの実験的量子優位性を示す。
  • 分類や回帰などの他の量子機械学習応用に一般化可能な設計原則を探索する。

提案手法

  • 強化学習に特化したパラメータ化された量子回路に基づき、複数の量子ポリシーのアーキテクチャを設計する。
  • これらの変分量子ポリシーを、微分可能かつエンドツーエンドで最適化可能なように、量子方策勾配アルゴリズムに適応する。
  • パラメータシフト則と勾配推定技術を用いて、量子回路評価に基づきポリシーのパラメータを最適化する。
  • CartPole や MountainCar などの古典的ベンチマーク環境でポリシーをテストし、性能を評価する。
  • 離散対数問題の古典的困難性仮定の下で、量子エージェントと古典的多項式時間学習者との間の理論的性能差を確立する。
  • 量子ポリシーの構造と表現力の分析を通じて、より広範な量子機械学習応用に有益な設計選択を同定する。

実験結果

リサーチクエスチョン

  • RQ1変分量子回路は強化学習におけるポリシーとして効果的に使用可能であり、効率的に訓練可能であるか?
  • RQ2量子強化学習エージェントが、任意の古典的多項式時間学習者を厳密に上回るタスク環境は存在するか?
  • RQ3標準的ベンチマーク環境において、量子ポリシーは古典的ニューラルネットワークポリシーに比べてどの程度の実験的性能向上を達成するか?
  • RQ4変分量子ポリシーにおけるどの設計パターンが、分類器や回帰器などの他の量子機械学習モデルに一般化可能か?

主な発見

  • 本稿では、離散対数問題の古典的困難性仮定の下で、特定の強化学習タスクにおいて証明可能な量子優位性を示している。
  • 実験的結果から、CartPole や MountainCar などの古典的ベンチマーク環境において、量子ポリシーが標準的ニューラルネットワークポリシーを上回ることを示している。
  • 提案された量子ポリシー訓練フレームワークは、量子方策勾配法を用いて効果的な制御ポリシーを成功裏に学習している。
  • 回路の深さやエンタングルメント構造といった量子ポリシーのアーキテクチャ設計選択が、性能向上に寄与しており、他の量子機械学習モデルへの一般化も可能である可能性を示している。
  • 本研究は、変分量子回路を用いた近位量子優位性を実現するための基盤となるフレームワークを提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。