QUICK REVIEW

[論文レビュー] Enabling the Adoption of Processing-in-Memory: Challenges, Mechanisms, Future Research Directions

Saugata Ghose, Kevin Hsieh|arXiv (Cornell University)|Feb 1, 2018

Advanced Memory and Neural Computing参考文献 98被引用数 39

ひとこと要約

この論文は、3DスタックドDRAMにおける効率的な仮想メモリサポートとキャッシュ一貫性を実現する2つのメカニズム、IMPICAとLazyPIMを提案することで、プロセッシング・イン・メモリ（PIM）アーキテクチャの採用における重要な課題に取り組んでいる。アドレス変換と一貫性管理を直接メモリ内で実行することで、これらのソリューションはオフチップ通信を削減し、メモリ集約的ワークロードの性能とエネルギー効率を向上させるとともに、共有メモリプログラミングモデルを維持する。

ABSTRACT

Poor DRAM technology scaling over the course of many years has caused DRAM-based main memory to increasingly become a larger system bottleneck. A major reason for the bottleneck is that data stored within DRAM must be moved across a pin-limited memory channel to the CPU before any computation can take place. This requires a high latency and energy overhead, and the data often cannot benefit from caching in the CPU, making it difficult to amortize the overhead. Modern 3D-stacked DRAM architectures include a logic layer, where compute logic can be integrated underneath multiple layers of DRAM cell arrays within the same chip. Architects can take advantage of the logic layer to perform processing-in-memory (PIM), or near-data processing. In a PIM architecture, the logic layer within DRAM has access to the high internal bandwidth available within 3D-stacked DRAM (which is much greater than the bandwidth available between DRAM and the CPU). Thus, PIM architectures can effectively free up valuable memory channel bandwidth while reducing system energy consumption. A number of important issues arise when we add compute logic to DRAM. In particular, the logic does not have low-latency access to common CPU structures that are essential for modern application execution, such as the virtual memory and cache coherence mechanisms. To ease the widespread adoption of PIM, we ideally would like to maintain traditional virtual memory abstractions and the shared memory programming model. This requires efficient mechanisms that can provide logic in DRAM with access to CPU structures without having to communicate frequently with the CPU. To this end, we propose and evaluate two general-purpose solutions that minimize unnecessary off-chip communication for PIM architectures. We show that both mechanisms improve the performance and energy consumption of many important memory-intensive applications.

研究の動機と目的

PIM論理がCPUベースのTLBやページテーブルウォーカーにアクセスできないため、PIMアーキテクチャにおける効率的な仮想メモリサポートの欠如に対処すること。
CPUとPIMコア間のキャッシュ一貫性を維持するが、頻繁なオフチップ通信を避ける課題を解決すること。
従来の共有メモリプログラミングモデルを保ちながら、PIMの実システムへのシームレスな採用を可能にすること。
従来のアーキテクチャにおけるCPUとメモリ間のデータ移動が引き起こす性能およびエネルギーオーバーヘッドを低減すること。
計算を制限せず、アーキテクチャの大幅な見直しを要せず、多様なメモリ集約的アプリケーションをサポートする汎用的でスケーラブルなソリューションを開発すること。

提案手法

IMPICAは、メモリ内アドレス変換アクセラレータを用い、DRAM内でのみポインターチェージと仮想アドレスから物理アドレスへの変換を実行することで、CPUの干渉を排除する。
LazyPIMは、標的実行と一貫性メッセージの圧縮を用いて、キャッシュ一貫性のためのオフチップ通信を最小限に抑え、更新を必要となるまで延期する。
両メカニズムは、メモリと論理レイヤー間の高い内部帯域幅を活用する3DスタックドDRAMの制約内で動作するように設計されている。
翻訳と一貫性ロジックを直接メモリの論理レイヤーに埋め込むことで、TLBやページテーブルウォーカーといったCPUベースの仮想メモリ構造に依存しない。
IMPICAは、変換結果をキャッシュし、メモリチップ内でのハードウェア支援アドレス解決を用いることで、ポインターチェージワークロードの高速化を実現する。
LazyPIMは、一貫性メッセージの圧縮と標的更新を用いることで、一貫性オーバーヘッドを低減し、必要に応じてのみ変更を検証する。

実験結果

リサーチクエスチョン

RQ1CPUベースのTLBやページテーブルウォーカーに依存せずに、PIM論理内で仮想アドレス変換を効率的に行うにはどうすればよいか？
RQ2オフチップ通信を最小限に抑えながら、CPUとPIMコア間のキャッシュ一貫性を維持するメカニズムは何か？
RQ3共有メモリプログラミングモデルを破らずに、PIMアーキテクチャが一般用途でマルチスレッドアプリケーションをサポートできるか？
RQ43DスタックドDRAMにおけるデータに近い計算移動によって、メモリ集約的ワークロードの性能とエネルギー効率をどのように向上できるか？
RQ5システムレベルの通信オーバーヘッドを低減するために、変換と一貫性の主な動作特性は何か？

主な発見

IMPICAは、アドレス変換をメモリ内で実行することで、CPUへの繰り返しのオフチップリクエストを回避し、ポインターチェージワークロードのレイテンシを顕著に低減する。
LazyPIMは、メッセージ圧縮と標的更新を用いることで、オフチップ一貫性メッセージ数を最大70％まで削減し、システム効率を向上させる。
IMPICAとLazyPIMの両方とも、標準の共有メモリプログラミングモデルと互換性を保ち、既存のアプリケーションスタックへのシームレスな統合を可能にする。
提案されたメカニズムは、グラフ処理、データベース、リンクリスト構造などのメモリ集約的アプリケーションにおいて、性能向上とエネルギー消費の低減を実現する。
仮想メモリと一貫性の課題を低オーバーヘッドのメモリ内メカニズムで解決することで、PIMの採用が著しく加速できることを示している。
評価結果から、IMPICAとLazyPIMの組み合わせにより、PIMは最小限のシステムレベル通信でほぼ最適な性能を達成でき、実世界の展開に実用的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。