Skip to main content
QUICK REVIEW

[论文解读] Learning Unitaries by Gradient Descent

Bobak T. Kiani, Seth Lloyd|arXiv (Cornell University)|Jan 31, 2020
Quantum Computing Algorithms and Architecture参考文献 25被引用 33
一句话总结

本文表明,在交替算子序列上的梯度下降,当序列参数数至少为 d^2 时,可以学习任何 Haar 随机的幺正矩阵 U(d),揭示在临界参数数量处的计算相变。

ABSTRACT

We study the hardness of learning unitary transformations in $U(d)$ via gradient descent on time parameters of alternating operator sequences. We provide numerical evidence that, despite the non-convex nature of the loss landscape, gradient descent always converges to the target unitary when the sequence contains $d^2$ or more parameters. Rates of convergence indicate a "computational phase transition." With less than $d^2$ parameters, gradient descent converges to a sub-optimal solution, whereas with more than $d^2$ parameters, gradient descent converges exponentially to an optimal solution.

研究动机与目标

  • 评估使用时间参数化交替算子序列上的梯度下降来学习 U(d) 中的 Haar 随机幺正矩阵的难度。
  • 研究序列中的参数数量如何影响收敛,并识别欠参数化与过参数化两种状态之间的相变。
  • 考察学习任意和浅深度的幺正矩阵,并描述景观行为与收敛速率。

提出的方法

  • 将幺正矩阵建模为 V(t,τ) = e^{-i A t_K} e^{-i B τ_K} ... e^{-i A t_1} e^{-i B τ_1},其中参数为 t_i, τ_i。
  • 将 A、B 视为高斯单位阵列(GUE)随机矩阵,以确保系统的可控性。
  • 将学习问题表述为用 Frobenius 范数最小化 L(t,τ) = ||U − V(t,τ)||^2。
  • 对所有 2K 个参数进行梯度下降,并针对不同的参数数量(2K < d^2、2K = d^2、2K > d^2)分析收敛性。
  • 同时探索任意目标幺正矩阵和浅深度目标,以评估在不同深度下的可学习性。

实验结果

研究问题

  • RQ1梯度下降在交替算子序列上是否能可靠地在参数数量的函数上恢复 Haar 随机目标幺正矩阵 U(d)?
  • RQ2在临界参数数量 2K = d^2 处,收敛行为是否存在计算相变?
  • RQ3梯度下降能否学习浅深度的幺正矩阵?若能,需要相对于 d^2 的参数预算为何?
  • RQ4欠参数化、临界参数化和过参数化三种情形下的收敛速率有何差异?
  • RQ5哪些景观特征(局部极小值、鞍点)会影响这些量子控制任务的可学习性?

主要发现

  • 当参数数量至少为 d^2 时,梯度下降收敛到目标幺正矩阵。
  • 欠参数化情况(2K < d^2)通常收敛到次优损失平台。
  • 在临界点 2K = d^2 时,学习表现为幂律收敛,速率较慢。
  • 过参数化情况(2K > d^2)在接近全局最小值时呈现指数收敛,与平方损失景观一致。
  • 学习浅深度的幺正矩阵通常需要 2K ≥ d^2(或 K ≥ d^2/2)参数,表明使用梯度下降进行低深度学习的难度。
  • 当目标为深度不足的幺正矩阵时,损失景观高度非凸且易陷阱,但在过参数化时趋于全局收敛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。