QUICK REVIEW

[論文レビュー] Model-free optimization of power/efficiency tradeoffs in quantum thermal machines using reinforcement learning

Paolo Andrea Erdman, Frank Noé|arXiv (Cornell University)|Apr 10, 2022

Advanced Thermodynamics and Statistical Mechanics被引用数 6

ひとこと要約

この論文は、系のハミルトニアン、量子状態、サイクル構造の知識が不要な、モデルフリーな強化学習フレームワークを導入し、量子熱機械におけるパワー効率トレードオフを最適化する。測定された熱流量にのみ依存することで、先行手法（最適化されたオットー循環を含む）を上回るパラメータを有するパレート最適な循環を同定し、超伝導キュービットおよび調和振動子を用いた量子エンジンおよび冷凍機における量子摩擦を低減する。

ABSTRACT

A quantum thermal machine is an open quantum system that enables the conversion between heat and work at the micro or nano-scale. Optimally controlling such out-of-equilibrium systems is a crucial yet challenging task with applications to quantum technologies and devices. We introduce a general model-free framework based on Reinforcement Learning to identify out-of-equilibrium thermodynamic cycles that are Pareto optimal trade-offs between power and efficiency for quantum heat engines and refrigerators. The method does not require any knowledge of the quantum thermal machine, nor of the system model, nor of the quantum state. Instead, it only observes the heat fluxes, so it is both applicable to simulations and experimental devices. We test our method on a model of an experimentally realistic refrigerator based on a superconducting qubit, and on a heat engine based on a quantum harmonic oscillator. In both cases, we identify the Pareto-front representing optimal power-efficiency tradeoffs, and the corresponding cycles. Such solutions outperform previous proposals made in the literature, such as optimized Otto cycles, reducing quantum friction.

研究の動機と目的

系のハミルトニアンや量子状態の事前知識がなくても、量子熱機械（QTM）を一般に最適化できるモデルフリーな手法を開発すること。
有限時間かつ非平衡状態の量子サイクルにおけるパワーと効率の多目的最適化の課題に取り組むこと。
測定可能な熱流量のみをフィードバックとして用いることで、シミュレートされたおよび実験的な両方のQTMを最適化すること。
断熱的または固定サイクルの仮定に縛られない、高パワーかつ高効率を両立するパレート最適なサイクルを同定すること。
量子摩擦の影響を低減するために、コher-enceに起因する損失を最小化する制御プロトコルを同定すること。

提案手法

連続的および離散的アクションを用いたソフトアクタクリティカル（SAC）強化学習アルゴリズムを採用し、時間に依存する制御プロトコルを最適化する。
環境からのフィードバックとして、ホットバスタブおよびコールドバスタブからの熱流量（JH(t), JC(t)）のみを用いるため、モデルフリーかつ実験的に容易に実装可能である。
量子系をブラックボックスとして扱い、系のハミルトニアン、量子状態、内部ダイナミクスの知識は一切不要である。
パワーと効率という複数の目的を同時に最適化することで、パレートフロント全体を同定可能である。
RLエージェントは環境との相互作用を通じて制御ポリシーを学習し、システムパラメータ（例：エネルギー差）の調整や、どのバスタブに結合するかの選択がアクションとして含まれる。
本手法は一般性を有し、熱流量が測定可能な限り、量子的および古典的確率的熱機械の両方へ適用可能である。

実験結果

リサーチクエスチョン

RQ1事前知識のないモデルフリーな強化学習アプローチは、量子熱機械における最適なパワー効率トレードオフを同定できるか？
RQ2RLによって同定されたサイクルの性能は、オットー循環などの既知のベンチマークと比較して、パワーと効率の両面でどのように差がつくか？
RQ3本手法は、非平衡状態の量子サイクルにおける量子摩擦をどの程度低減できるか？
RQ4本手法は、エンジンおよび冷凍機の両方で、従来のプロトコルを上回る複雑で非伝統的なサイクル構造を同定できるか？
RQ5量子状態のモニタリングを一切行わず、熱流量測定のみで近似的にパレート最適な性能を達成することは可能か？

主な発見

本手法は、超伝導キュービット冷凍機および量子調和振動子熱エンジンの両方において、最適なパワー効率トレードオフのパレートフロント全体を成功裏に同定した。
同定されたサイクルは、最適化されたオットー循環や他の先行提案を上回り、量子摩擦の影響を顕著に低減した。
超伝導キュービット冷凍機では、系のハミルトニアンの知識がなくても、以前の手法を上回る冷却パワーと高い効率を達成した。
調和振動子熱エンジンでは、複雑で断熱的でない制御プロトコルを同定し、出力パワーを向上させつつも高い効率を維持した。
本手法は、量子状態の完全なモニタリングを必要とした先行RL手法の性能を再現したが、モデルフリーかつ実験的に実装可能な形で達成した。
結果から、熱流量のみのフィードバックで、量子熱機械における高パフォーマンスで非自明な制御サイクルを同定可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。