QUICK REVIEW

[논문 리뷰] Reconstruction of a Photonic Qubit State with Quantum Reinforcement Learning

Shang Yu, F. Albarrán-Arriagada|arXiv (Cornell University)|2018. 08. 28.

Neural Networks and Reservoir Computing인용 수 2

한 줄 요약

이 논문은 알려지지 않은 광학 큐비트 상태를 제한된 수의 복제본만을 사용하여 재구성하기 위한 반정량화 강화학습 프로토콜을 제안한다. 단일 측정 및 피드백 신호(보상/벌칙)를 통해 반복적으로 광학 에이전트 큐비트의 상태를 조정함으로써, 50회 이내에 88% 이상의 허상도를 달성하며, 자원이 제한된 상황에서의 양자 상태 재구성에 대해 확장 가능한 접근법을 보여준다.

ABSTRACT

An experiment is performed to reconstruct an unknown photonic quantum state with a limited amount of copies. A semi-quantum reinforcement learning approach is employed to adapt one qubit state, an agent, to an unknown quantum state, an environment, by successive single-shot measurements and feedback, in order to achieve maximum overlap. The experimental learning device herein, composed of a quantum photonics setup, can adjust the corresponding parameters to rotate the agent system based on the measurement outcomes 0 or 1 in the environment (i.e., reward/punishment signals). The results show that, when assisted by such a quantum machine learning technique, fidelities of the deterministic single-photon agent states can achieve over 88% under a proper reward/punishment ratio within 50 iterations. This protocol offers a tool for reconstructing an unknown quantum state when only limited copies are provided, and can also be extended to higher dimensions, multipartite, and mixed quantum state scenarios.

연구 동기 및 목표

이름이 알려지지 않은 상태의 복제 수가 매우 적을 때 발생하는 양자 상태 재구성 문제를 해결하기 위해.
광학 에이전트가 알려진 목표 상태와 일치하도록 상태를 적응시킬 수 있는 피드백 기반 학습 프로토콜을 개발하기 위해.
양자 기계학습 기법을 광학 시스템에서의 상태 재구성에 적용할 수 있는 가능성을 입증하기 위해.
단일 큐비트 시스템을 넘어 고차원, 다중입자 및 혼합 양자 상태로 이 방법을 확장하기 위해.

제안 방법

측정 결과에 따라 상태 매개변수를 조정함으로써 진화하는 강화학습 에이전트를 실현하기 위해 광학 양자 장치를 사용한다.
각 단일 측정 이후 환경에서 이진 피드백(결과 1에 대한 보상, 결과 0에 대한 벌칙)을 제공한다.
피드백에 따라 제어된 유니터리 연산을 통해 에이전트의 상태를 회전시키며, 알려진 상태와의 오버랩을 최대화하는 학습 규칙에 따라 이뤄진다.
학습 과정은 반복적이며, 각 에피소드는 측정과 매개변수 갱신으로 구성되며, 최대 50회 반복된다.
보상/벌칙 비율을 조정하여 재구성 상태의 수렴성과 허상도를 최적화한다.
단일 광자 상태와 선형 광학 요소를 사용하여 실험적으로 프로토콜을 구현한다.

실험 결과

연구 질문

RQ1제한된 수의 복제본만을 사용하여 광학 에이전트가 알려지지 않은 단일 광자 큐비트 상태를 재구성할 수 있는가?
RQ2보상/벌칙 비율은 상태 재구성 과정의 허상도와 수렴 속도에 어떤 영향을 미치는가?
RQ3이 강화학습 접근법은 고차원 및 얽힌 양자 상태로 어느 정도까지 확장될 수 있는가?
RQ4유한한 반복 횟수와 현실적인 실험 조건 하에서 재구성된 상태의 최대 달성 가능한 허상도는 얼마인가?

주요 결과

적절한 보상/벌칙 비율을 사용할 경우, 재구성된 에이전트 상태와 알려지지 않은 목표 상태 간의 허상도가 88%를 초과한다.
50회 이내에 허상도 향상이 관찰되어 학습 과정의 빠른 수렴을 시사한다.
실험적 설정은 광학 큐비트와 단일 측정을 활용한 피드백 기반 양자 기계학습 프로토콜을 성공적으로 실현하였다.
이 방법은 복제 수 제한에 대해 강건하여, 상태 준비가 비용이 많이 들거나 드문 상황에 적합하다.
원칙적으로 고차원 큐디트 시스템과 다중입자 얽힌 상태로의 확장이 가능하다.
결과는 광학 양자정보 시스템에서 실용적인 양자 상태 재구성에 대해 반정량화 강화학습의 타당성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.