QUICK REVIEW

[論文レビュー] Learning Memory Access Patterns

Milad Hashemi, Kevin Swersky|arXiv (Cornell University)|Mar 6, 2018

Parallel Computing and Optimization Techniques参考文献 33被引用数 67

ひとこと要約

この論文はメモリアクセスのための LSTM ベースのニューラルプリフェッチャを検討し、プリフェッチをデルタ値と PC のクラスタリング上の分類問題として位置づけ、従来のハードウェアプリフェッチャより多様なベンチマークで精度と再現率が改善されることを示す。

ABSTRACT

The explosion in workload complexity and the recent slow-down in Moore's law scaling call for new approaches towards efficient computing. Researchers are now beginning to use recent advances in machine learning in software optimizations, augmenting or replacing traditional heuristics and data structures. However, the space of machine learning for computer hardware architecture is only lightly explored. In this paper, we demonstrate the potential of deep learning to address the von Neumann bottleneck of memory performance. We focus on the critical problem of learning memory access patterns, with the goal of constructing accurate and efficient memory prefetchers. We relate contemporary prefetching strategies to n-gram models in natural language processing, and show how recurrent neural networks can serve as a drop-in replacement. On a suite of challenging benchmark datasets, we find that neural networks consistently demonstrate superior performance in terms of precision and recall. This work represents the first step towards practical neural-network based prefetching, and opens a wide range of exciting directions for machine learning in computer architecture research.

研究の動機と目的

メモリの壁の課題と、表ベースのハードウェア予測器を超えるスケーラブルな予測技術の必要性を動機づける。
シーケンスモデル、特に LSTMs がメモリミスを予測してプリフェッチを導けるかを調査する。
2つの LSTM ベースのプリフェッチャアーキテクチャを開発し、その実用性と精度を評価する。
現実的なベンチマークのトレースに対してニューラルプリフェッチャを従来のハードウェアプリフェッチャと比較評価する。
学習されたメモリアクセストレースの構造とハードウェア統合の潜在的方向性についての洞察を提供する。

提案手法

プリフェッチを離散分類問題として定式化し、アドレス空間をデルタ値やクラスタの語彙として扱う。
入力 PC とデルタを持つ埋め込み LSTM を開発し、プリフェッチのトップ10デルタ予測出力を設ける。
クラスタリング＋LSTM を開発し、共有ウェイトとクラスタIDを特徴量としてローカルなアドレス空間領域をモデリングする。
SPEC CPU2006 ベンチマークと Google ウェブ検索ワークロードのオフライン・トレースを用いて70/30の訓練/テスト分割で学習。
10ストリームのハードウェアプリフェッチャと GHB PC/DC 相関プリフェッチャと比較し、精度-at-10と再現率-at-10を評価。
デルタ（Addr_{N+1}-Addr_N）を入力として使用し、クラスタ内の語彙サイズを小さくし一貫性を向上させる。

実験結果

リサーチクエスチョン

RQ1シーケンスベースのモデル（LSTM）はメモリアクセスにおいて従来のハードウェアプリフェッチャより精度と再現率で優れるか？
RQ2出力空間をデルタやクラスタ化されたアドレスを介して離散化することは、現実的なハードウェアスケールで効果的なニューラルプリフェッチを可能にするか？
RQ3入力モダリティ（PCs対デルタ）はプリフェッチの予測情報にどう寄与するか？
RQ4埋め込みベースの LSTM とクラスタリングベースの LSTM の精度、モデルサイズ、メモリアクセスの局所性の観点でのトレードオフは？

主な発見

データセット	欠失数 (M)	PCs	アドレス	デルタ	アドレス 50% 質量	デルタ 50% 質量
gems	500	3278	13.11M	2.47M	4.28M	18
astar	500	211	0.53M	1.77M	0.06M	15
bwaves	491	893	14.20M	3.67M	3.03M	2
lbm	500	55	6.60M	709	3.06M	9
leslie3d	500	2554	1.23M	0.03M	0.23M	15
libquantum	470	46	0.52M	30	0.26M	1
mcf	500	174	27.41M	30.82M	0.07M	0.09M
milc	500	898	3.74M	9.68M	0.87M	46
omnetpp	449	976	0.71M	5.01M	0.12M	4613
soplex	500	1218	3.49M	5.27M	1.04M	10
sphinx	283	693	0.21M	0.37M	0.03M	3
websearch	500	54600	77.76M	96.41M	0.33M	5186

ニューラルネットワークプリフェッチャは複数のベンチマークで従来のハードウェアプリフェッチャより高い精度と再現率を達成。
埋め込み LSTM とクラスタリング＋LSTM は精度の点で同程度だが、クラスタリング＋LSTM は複数の語彙による再現率が高い。
デルタを入力として使用することが精度の最も予測力のある情報を提供し、PC は再現率に寄与する。
アドレス空間を領域にクラスタリングすることは語彙サイズとモデルのフットプリントを削減し、共有ウェイトを持つマルチタスク LSTM を可能にする。
学習された表現の構造は解釈可能で（例：t-SNE 視覚化はコードパターンの意味を示す）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。