QUICK REVIEW

[論文レビュー] Quantum POMDPs

Jennifer Barry, Daniel T. Barry|arXiv (Cornell University)|Jun 11, 2014

Quantum Computing Algorithms and Architecture参考文献 13被引用数 70

ひとこと要約

本稿では、信念状態がスーパーオペレータを介して進化する量子状態として扱われる、古典的POMDPの量子版である量子観測マルコフ決定過程（QOMDP）を導入する。主な貢献は、POMDPでは到達可能性が決定可能であるのに対し、量子重ね合わせともつれのためQOMDPでは到達可能性が決定不能になることの証明であり、古典的および量子的部分観測意思決定過程の間で根本的な計算可能性のギャップを明らかにしている。

ABSTRACT

We present quantum observable Markov decision processes (QOMDPs), the quantum analogues of partially observable Markov decision processes (POMDPs). In a QOMDP, an agent's state is represented as a quantum state and the agent can choose a superoperator to apply. This is similar to the POMDP belief state, which is a probability distribution over world states and evolves via a stochastic matrix. We show that the existence of a policy of at least a certain value has the same complexity for QOMDPs and POMDPs in the polynomial and infinite horizon cases. However, we also prove that the existence of a policy that can reach a goal state is decidable for goal POMDPs and undecidable for goal QOMDPs.

研究の動機と目的

本稿の目的は、信念状態が古典的確率分布ではなく量子状態である量子POMDPの一般化を形式化することである。
本稿では、量子設定における意思決定問題の計算複雑性と決定可能性を調査し、特に古典的POMDPと比較する。
本研究の目的は、不確実な環境における量子制御と推論が、古典的対応物と根本的に計算可能性の観点で異なるかどうかを理解することである。
本稿は、部分観測下での量子意思決定の基礎的結果を確立することを目的としており、これは量子制御およびフォールトトレランスに関連する。

提案手法

QOMDPは、状態が量子状態、行動がスーパーオペレータ、観測が正の演算子値測定（POVM）であるタプル⟨S, A, T, O, R, γ⟩として定義される。
信念状態は量子操作（スーパーオペレータ）を介して進化し、古典的POMDPにおけるベイズ更新を一般化する。
本稿では、木構造のポリシー表現とグラフ到達可能性解析を用いて、POMDPにおける到達可能性問題を有限状態MDP問題に還元する。
本稿では、行列の死亡問題からの還元を用いてQOMDPにおける決定不能性を証明し、量子進化が決定不能な計算プロセスをシミュレートできることを示す。
本稿の分析では、量子状態の重ね合わせともつれを活用して、到達可能性がアルゴリズム的に決定不能な系を構築する。
主な技術的ツールとして、量子状態の木構造と、測定およびスーパーオペレータの進化を介した古典的ポリシー木から量子信念状態への写像が用いられる。

実験結果

リサーチクエスチョン

RQ1POMDPでは到達可能であるにもかかわらず、QOMDPにおける目標状態到達可能性は決定可能か？
RQ2有限および無限ホライズンの両ケースにおいて、QOMDPにおけるポリシー存在の計算複雑性はPOMDPと比べてどの程度か？
RQ3量子重ね合わせともつれは、古典的状況では決定可能な意思決定問題において決定不能性を引き起こすか？
RQ4部分観測下での量子制御と推論は、古典的対応物と比較して計算可能性の観点でどのように異なるか？
RQ5古典的POMDPアルゴリズムの量子版は存在するか？その複雑性境界は何か？

主な発見

POMDPでは、到達可能性が決定可能であり、有限状態MDPへの還元とポリシー誘導状態遷移のグラフ解析により解ける。
それに対して、QOMDPでは到達可能性が決定不能であり、行列の死亡問題からの還元を用いて証明されている。
有限および無限ホライズンの両方において、特定の期待報酬を達成するポリシーの存在は、QOMDPおよびPOMDPの両方でPSPACE完全である。
決定不能性は、量子操作が、決定不能な計算問題をエンコードできるように状態を重ね合わせおよびもつれさせることに起因する。
本稿では、量子系が非決定的かつ非終了するプロセスをシミュレートでき、有限時間内にアルゴリズム的に解析することは不可能であることを確立する。
到達可能性の決定不能性にもかかわらず、本稿はポリシー存在の複雑性が両モデルでPSPACEに留まることを示しており、ポリシー存在と到達可能性の複雑性の間で明確な差が生じていることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。