Skip to main content
QUICK REVIEW

[論文レビュー] A Case for CXL-Centric Server Processors

Albert Cho, Anish Saxena|arXiv (Cornell University)|May 8, 2023
Parallel Computing and Optimization Techniques被引用数 1
ひとこと要約

この論文では、ピン制限による帯域幅の制限を克服するため、DDRメモリインターフェースをすべてCXLに置き換えるCXL中心のサーバープロセッサアーキテクチャCOAXIALを提案する。CXLはピンあたり4倍の帯域幅を実現するため、より多くのチャネルでメモリキューイング遅延を低減し、平均で1.52倍、メモリ集約的ワークロードでは最大3倍の性能向上を達成する。これはわずかな遅延オーバーヘッドを伴うが、性能向上が顕著である。

ABSTRACT

The memory system is a major performance determinant for server processors. Ever-growing core counts and datasets demand higher bandwidth and capacity as well as lower latency from the memory system. To keep up with growing demands, DDR--the dominant processor interface to memory over the past two decades--has offered higher bandwidth with every generation. However, because each parallel DDR interface requires a large number of on-chip pins, the processor's memory bandwidth is ultimately restrained by its pin-count, which is a scarce resource. With limited bandwidth, multiple memory requests typically contend for each memory channel, resulting in significant queuing delays that often overshadow DRAM's service time and degrade performance. We present CoaXiaL, a server design that overcomes memory bandwidth limitations by replacing extit{all} DDR interfaces to the processor with the more pin-efficient CXL interface. The widespread adoption and industrial momentum of CXL makes such a transition possible, offering $4 imes$ higher bandwidth per pin compared to DDR at a modest latency overhead. We demonstrate that, for a broad range of workloads, CXL's latency premium is more than offset by its higher bandwidth. As CoaXiaL distributes memory requests across more channels, it drastically reduces queuing delays and thereby both the average value and variance of memory access latency. Our evaluation with a variety of workloads shows that CoaXiaL improves the performance of manycore throughput-oriented servers by $1.52 imes$ on average and by up to $3 imes$.

研究の動機と目的

  • 現代のマルチコアサーバーにおけるDDRのピン制限による帯域幅ボトルネックを解消すること。
  • CXLが、より高い未使用遅延を有するものの、DDRの完全な代替としてサーバープロセッサで使用可能かどうかを調査すること。
  • 負荷がかかるメモリシステムにおいて、CXLの高い並列性によるキューイング遅延の低減が、その遅延オーバーヘッドを上回ることを示すこと。
  • CXL中心のアーキテクチャに再考することで、スケーラブルかつ高パフォーマンスなサーバーアーキテクチャを実現すること。

提案手法

  • ピンあたりの利用可能なメモリ帯域幅を増加させるために、プロセッサのすべてのDDRインターフェースをCXLインターフェースに置き換える。
  • CXLのシリアル型、PCIeベースのインターフェースを活用し、並列DDRと比較してピンあたり4倍の帯域幅を達成する。
  • CXLを活用することで、メモリチャネル数を4倍に増加させ、リソース競合とキューイング遅延を低減する。
  • 実際のCXLの遅延と帯域幅特性を想定した条件下で、多様なワークロードに対してCOAXIALをフルシステムシミュレータで評価する。
  • キューイング遅延とサービス時間の関数としてメモリアクセス遅延をモデル化し、キューイング遅延の低減が性能向上の主因であることを示す。
  • 高負荷環境における、より高い未使用遅延と、キューイングが低減されることによる有効遅延のトレードオフを分析する。

実験結果

リサーチクエスチョン

  • RQ1CXLのより高い未使用メモリアクセス遅延を考慮しても、CXLがサーバープロセッサの主要メモリインターフェースとしてDDRに置き換え可能かどうか。
  • RQ2CXLのピンあたりの高い帯域幅が、マルチコアサーバーワークロードにおけるメモリキューイング遅延をどの程度低減するか。
  • RQ3増加したチャネルの並列性によるキューイング遅延の低減が、実際のワークロードにおいてCXLの遅延オーバーヘッドを上回るか。
  • RQ4メモリ集約的ワークロード下で、CXL中心のメモリシステムは従来のDDRベースのシステムと比較してどの程度の性能を示すか。
  • RQ5CXLの高い帯域幅と増加したチャネル数が、平均およびメモリアクセス遅延のばらつきに及ぼす性能的影響は何か。

主な発見

  • COAXIALは、多様なメモリ集約的ワークロード全体で平均1.52倍の性能向上を達成する。
  • COAXIALが特定のワークロードで達成した最大の性能向上は3倍である。
  • 25–30nsの遅延オーバーヘッドがあるものの、CXLの高い帯域幅がキューイング遅延を最小限に抑えることで、有効メモリアクセス遅延が低減する。
  • キューイング遅延の低減により、平均メモリアクセス遅延が低下し、ばらつきも減少し、予測可能性と性能が向上する。
  • DDRのピン制限による帯域幅が深刻なボトルネックとなる、高メモリ競合が生じるワークロードで、性能向上が顕著に現れる。
  • CXLのピンあたり帯域幅の優位性により、ピン数を増やさずに4倍の利用可能メモリ帯域幅が実現可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。