Skip to main content
QUICK REVIEW

[论文解读] A Case for CXL-Centric Server Processors

Albert Cho, Anish Saxena|arXiv (Cornell University)|May 8, 2023
Parallel Computing and Optimization Techniques被引用 1
一句话总结

本文提出 COAXIAL,一种以 CXL 为中心的服务器处理器设计,用 CXL 取代所有 DDR 内存接口,以突破引脚带宽限制。通过利用 CXL 每引脚 4 倍的带宽,COAXIAL 在更多通道上减少内存排队延迟,尽管存在适度的延迟开销,但在内存密集型工作负载下,平均性能提升 1.52 倍,最高可达 3 倍。

ABSTRACT

The memory system is a major performance determinant for server processors. Ever-growing core counts and datasets demand higher bandwidth and capacity as well as lower latency from the memory system. To keep up with growing demands, DDR--the dominant processor interface to memory over the past two decades--has offered higher bandwidth with every generation. However, because each parallel DDR interface requires a large number of on-chip pins, the processor's memory bandwidth is ultimately restrained by its pin-count, which is a scarce resource. With limited bandwidth, multiple memory requests typically contend for each memory channel, resulting in significant queuing delays that often overshadow DRAM's service time and degrade performance. We present CoaXiaL, a server design that overcomes memory bandwidth limitations by replacing extit{all} DDR interfaces to the processor with the more pin-efficient CXL interface. The widespread adoption and industrial momentum of CXL makes such a transition possible, offering $4 imes$ higher bandwidth per pin compared to DDR at a modest latency overhead. We demonstrate that, for a broad range of workloads, CXL's latency premium is more than offset by its higher bandwidth. As CoaXiaL distributes memory requests across more channels, it drastically reduces queuing delays and thereby both the average value and variance of memory access latency. Our evaluation with a variety of workloads shows that CoaXiaL improves the performance of manycore throughput-oriented servers by $1.52 imes$ on average and by up to $3 imes$.

研究动机与目标

  • 解决现代多核服务器中因 DDR 引脚带宽受限导致的性能瓶颈。
  • 探究尽管存在更高的空载延迟,CXL 是否可作为服务器处理器中 DDR 的完整替代方案。
  • 证明在负载内存系统中,CXL 更高并行性带来的排队延迟降低,可抵消其延迟开销。
  • 通过将内存系统重新构想为以 CXL 为中心而非以 DDR 为中心,实现可扩展的高性能服务器架构。

提出的方法

  • 将处理器中所有 DDR 接口替换为 CXL 接口,以提升每引脚的可用内存带宽。
  • 利用 CXL 的串行 PCIe 基接口,实现每引脚带宽为并行 DDR 的 4 倍。
  • 通过使用 CXL,将内存请求分布在 4 倍的内存通道上,减少争用和排队延迟。
  • 使用全系统模拟器,在真实 CXL 延迟和带宽特性下,评估 COAXIAL 在多样化工作负载下的表现。
  • 将内存访问延迟建模为排队延迟和服务时间的函数,表明排队延迟的降低主导了性能提升。
  • 分析在高负载场景下,更高空载延迟与因排队减少带来的更低有效延迟之间的性能权衡。

实验结果

研究问题

  • RQ1尽管存在更高的空载内存访问延迟,CXL 是否可作为服务器处理器中的主要内存接口,取代 DDR?
  • RQ2CXL 每引脚更高的带宽在多核服务器工作负载中,能在多大程度上减少内存排队延迟?
  • RQ3在真实工作负载中,由于通道并行性增加而带来的排队延迟降低,是否足以抵消 CXL 的延迟开销?
  • RQ4在内存密集型工作负载下,以 CXL 为中心的内存系统性能与传统 DDR 系统相比如何?
  • RQ5CXL 更高的带宽和增加的通道数量,对内存访问延迟的平均值和方差有何性能影响?

主要发现

  • COAXIAL 在多样化内存密集型工作负载中,平均性能提升 1.52 倍。
  • COAXIAL 在某些工作负载中实现的最大性能加速比达到 3 倍。
  • 尽管存在 25–30ns 的延迟开销,CXL 的更高带宽通过最小化排队延迟,降低了有效内存访问延迟。
  • 减少的排队延迟导致更低的平均内存访问延迟和更小的延迟方差,提升了可预测性和性能。
  • 性能提升在内存争用较高的工作负载中最为显著,此时 DDR 的引脚带宽限制成为主要瓶颈。
  • CXL 的每引脚带宽优势使可用内存带宽在不增加引脚数量的前提下提升了 4 倍。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。