QUICK REVIEW

[論文レビュー] Understanding and Improving the Latency of DRAM-Based Memory Systems

Kevin K. Chang|arXiv (Cornell University)|Dec 22, 2017

Parallel Computing and Optimization Techniques被引用数 28

ひとこと要約

本学位論文は、DRAMの持続的遅延要因である、非効率な大容量データ移動、リフレッシュ干渉、および固有のセルレベル遅延変動の3要因を特定し、それらに対処するため、LISA（低コスト相互接続サブアレイ）、DSARP（アクセス-リフレッシュ並列化）、FLY-DRAM（可変遅延DRAM）、Voltron（電圧感知遅延最適化）を提案する。これらの技術は、アーキテクチャ的イノベーションと実用DRAM動作の実証的特徴付けを通じて、遅延を低減し、エネルギー効率を向上させる。

ABSTRACT

Over the past two decades, the storage capacity and access bandwidth of main memory have improved tremendously, by 128x and 20x, respectively. These improvements are mainly due to the continuous technology scaling of DRAM (dynamic random-access memory), which has been used as the physical substrate for main memory. In stark contrast with capacity and bandwidth, DRAM latency has remained almost constant, reducing by only 1.3x in the same time frame. Therefore, long DRAM latency continues to be a critical performance bottleneck in modern systems. Increasing core counts, and the emergence of increasingly more data-intensive and latency-critical applications further stress the importance of providing low-latency memory access. In this dissertation, we identify three main problems that contribute significantly to long latency of DRAM accesses. To address these problems, we present a series of new techniques. Our new techniques significantly improve both system performance and energy efficiency. We also examine the critical relationship between supply voltage and latency in modern DRAM chips and develop new mechanisms that exploit this voltage-latency trade-off to improve energy efficiency. The key conclusion of this dissertation is that augmenting DRAM architecture with simple and low-cost features, and developing a better understanding of manufactured DRAM chips together lead to significant memory latency reduction as well as energy efficiency improvement. We hope and believe that the proposed architectural techniques and the detailed experimental data and observations on real commodity DRAM chips presented in this dissertation will enable development of other new mechanisms to improve the performance, energy efficiency, or reliability of future memory systems.

研究の動機と目的

20年間で1.3倍にしか向上していないDRAM遅延の持続的性能ボトルneckを解消すること。これは、容量が128倍に増加し、帯域幅が20倍に向上したにもかかわらずである。
現在、余分な外部メモリ転送を伴う、DRAMサブアレイ間の大量データ移動における非効率性を特定・解消すること。
メモリアクセスをブロックするリフレッシュ操作による性能劣化を軽減すること。
製造上の不規則性によって引き起こされるDRAMセル間の固有の遅延変動を、速いセルと遅いセルに分類することで最適化されたアクセスを可能にすること。
DRAMにおける電圧-遅延トレードオフを特徴付け、動的電圧スケーリングを活用してエネルギー効率を向上させること。

提案手法

LISAを設計し、サブアレイ間での高速で低コストのオンチップデータ移動を可能にするアーキテクチャを実現することで、外部メモリ転送の必要性を低減する。
DSARPを開発し、メモリアクセスとリフレッシュ操作を並列化する二重技術を採用することで、リフレッシュに起因する遅延を低減する。
FLY-DRAMを提唱し、DRAMセルを高速領域と低速領域に分類し、ハードウェアおよびコントローラーの変更を加えることで、高速領域へのアクセスを低遅延で実現する。
Voltronを導入し、パフォーマンスモデルを用いてDRAM供給電圧を動的に調整するメカニズムを実装することで、遅延を低減し、エネルギー効率を向上させる。
実用DRAMチップの広範な実験的特徴付けを実施し、セル間での遅延変動と電圧依存遅延行動を測定する。
FPGAベースのテストインfra（SoftMC）およびカスタムシミュレータ（Ramulator、NoCulator）を用いて、提案されたすべてのメカニズムの検証と評価を実施する。

実験結果

リサーチクエスチョン

RQ1DRAMサブアレイ間のオンチップデータ移動をどのように最適化すれば、外部転送と遅延を低減できるか？
RQ2メモリアクセスとDRAMリフレッシュ操作をどれだけ重ね合わせられるか。これにより、リフレッシュに起因する性能劣化をどれだけ軽減できるか？
RQ31枚のチップ内における個々のDRAMセル間の固有の遅延変動の程度と性質は何か。そして、それをどのように活用できるか？
RQ4供給電圧がDRAMアクセス遅延、エネルギー消費量、信頼性に与える影響は何か。この関係性をエネルギー効率の向上に活用できるか？
RQ5セルレベルの遅延変動や電圧-遅延トレードオフを活用するアーキテクチャ的技術を、実システムで設計・検証できるか？

主な発見

LISAは、サブアレイ間での高速でエネルギー効率の良いデータ移動を可能にし、外部転送の必要性を低減するとともに、高速コピーや低遅延バンク準備遅延のサポートを可能にする。
DSARP技術により、アクセスとリフレッシュを重ねることで、リフレッシュに起因する遅延を低減し、最小限のハードウェア変更でリフレッシュなし理想系に近いパフォーマンスを達成できる。
FLY-DRAMは、高速セル領域への選択的アクセスにより、DRAMアクセス遅延を低減し、セルレベルの遅延変動の本質的特徴を活用することでシステムパフォーマンスを向上させる。
Voltronは、パフォーマンスモデルに基づいてDRAM供給電圧を動的に調整することで、電圧-遅延トレードオフを活用し、遅延を低減するとともにエネルギー効率を向上させる。
研究では、製造上の不規則性によってDRAMセル間で顕著な遅延変動が生じており、一部のセルは他のセルよりも本質的に速いことが判明した。これは、最悪遅延が一様であるという仮定に疑問を呈する。
実験的特徴付けにより、DRAMアレイの供給電圧を上昇させることで、アクセス遅延が確実に低減することが示され、システム最適化のための新たなエネルギー-遅延トレードオフが可能になることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。