Skip to main content
QUICK REVIEW

[论文解读] qHiPSTER: The Quantum High Performance Software Testing Environment

Mikhail Smelyanskiy, Nicolas P. D. Sawaya|arXiv (Cornell University)|Jan 26, 2016
Quantum Computing Algorithms and Architecture参考文献 30被引用 115
一句话总结

qHiPSTER 是一个基于经典 HPC 系统的分布式高性能量子线路模拟器,能够在 Stampede 的 1000 个节点上使用单量子门和双量子门模拟高达 40 个量子比特,并且它分析内存/网络带宽受限的性能、优化和可扩展性。

ABSTRACT

We present qHiPSTER, the Quantum High Performance Software Testing Environment. qHiPSTER is a distributed high-performance implementation of a quantum simulator on a classical computer, that can simulate general single-qubit gates and two-qubit controlled gates. We perform a number of single- and multi-node optimizations, including vectorization, multi-threading, cache blocking, as well as overlapping computation with communication. Using the TACC Stampede supercomputer, we simulate quantum circuits ("quantum software") of up to 40 qubits. We carry out a detailed performance analysis to show that our simulator achieves both high performance and high hardware efficiency, limited only by the sustainable memory and network bandwidth of the machine.

研究动机与目标

  • 激励在 HPC 系统上进行高精度量子线路仿真,以研究算法性能、误差和噪声的影响。
  • 开发一个分布式仿真器,能够对多达约 40 个量子比特执行通用单量子门和两量子比特受控门。
  • 在大规模 HPC 硬件上评估性能与硬件效率,聚焦内存带宽、网络带宽,以及通信-计算重叠。
  • 研究架构与算法优化,以推动分布式量子态模拟的极限。

提出的方法

  • 实现一个分布式状态向量仿真器,将 2^n 幅度向量分区到 2^p 个节点,每个节点有 m = n - p 的本地幅度。
  • 通过在状态向量上直接使用一个 2x2 单位矩阵 Q 来更新幅度对,从而应用一般单量子门(两量子比特受控门同样方式)。
  • 使用一种通信方案,使得处理器对交换它们本地状态的半部分以实现跨节点门的应用,对于受控门,根据控制和目标量子比特位于本地内存边界 m 的上方还是下方,分为四种情况。
  • 引入向量化(AVX2)和复数-SIMD 算术以加速内部循环,并使用多线程并行化外部/内部循环。
  • 开发缓存阻塞和门融合策略,将状态向量的块保持在 LLC 中以提高有效内存带宽。
  • 通过多步骤通信来重叠计算与数据交换,以克服内存和网络瓶颈,并通过尝试门融合和 LLC 驻留块来提升性能。

实验结果

研究问题

  • RQ1在大规模分布式量子态仿真器上,单量子门和两量子比特操作的性能(每个门的时间)是多少?
  • RQ2高性能仿真器在 HPC 硬件上能在多大程度上接近内存受限和网络受限的理论极限?
  • RQ3哪些架构/算法优化(向量化、多线程、缓存阻塞、门融合、多步通信)在大数量量子比特时能带来最大的性能提升?
  • RQ4针对高达 40 个量子比特,分布式门应用在数百到数千节点上的扩展性如何?
  • RQ5在此框架中量子傅里叶变换(QFT)内核的性能如何?

主要发现

情况分析Stampede (n=29, B_mem=40 GB/s, B_net=5.5 GB/s)
12^{m+5}/B_mem0.43 sec
22^{m+5}/B_mem3.12 sec
32^{m+4}/B_mem0.21 sec
42^{m+5}/B_mem0.43 sec
52^{m+4}/B_mem1.56 sec
62^{m+5}/B_net3.12 sec
  • 该仿真器能够在 1000 个 Stampede 节点、总内存 32 TB 的条件下处理多达 40 个量子比特,达到的门性能根据量子比特位置和通信而呈现内存受限或网络受限。
  • 对于 k < m 的量子比特上的单量子门在内存受限,时间约为 0.43 s,当 m=29(n=29);而对 k ≥ m 的在给定硬件下成为网络受限,约 3.12 s。
  • 两量子比特门表现出类似的内存受限(0.21 s)或网络受限(≈3.12 s)特性,取决于 m、c,以及是否需要跨节点通信。
  • 门融合与 LLC 友好缓存阻塞可以将有效内存带宽显著提升至高于基线 STREAM 速率,在某些量子比特数量下的融合 IQFT 情况下达到 ~100 GB/s。
  • 多节点强标度在中等节点数量下,当不需要通信时呈现近线性加速;当跨节点通信成为瓶颈时显著降速;在大规模时, LLC 驻留和网络拥塞影响性能。
  • QFT 性能从 ~0.27 s/门(29 qubits)扩展到 ~1.22 s/门(40 qubits),凸显了在更大电路中通信的影响增加。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。