QUICK REVIEW

[논문 리뷰] Learning Memory Access Patterns

Milad Hashemi, Kevin Swersky|arXiv (Cornell University)|2018. 03. 06.

Parallel Computing and Optimization Techniques참고 문헌 33인용 수 67

한 줄 요약

이 논문은 메모리 접근에 대해 LSTM 기반 뉴럴 프리패처를 탐구하고 프리패칭을 델타(및 PC) 값의 분류 문제로 설정하며, 다양한 벤치마크에서 전통적 하드웨어 프리패처보다 정밀도와 재현율이 향상됨을 보여준다.

ABSTRACT

The explosion in workload complexity and the recent slow-down in Moore's law scaling call for new approaches towards efficient computing. Researchers are now beginning to use recent advances in machine learning in software optimizations, augmenting or replacing traditional heuristics and data structures. However, the space of machine learning for computer hardware architecture is only lightly explored. In this paper, we demonstrate the potential of deep learning to address the von Neumann bottleneck of memory performance. We focus on the critical problem of learning memory access patterns, with the goal of constructing accurate and efficient memory prefetchers. We relate contemporary prefetching strategies to n-gram models in natural language processing, and show how recurrent neural networks can serve as a drop-in replacement. On a suite of challenging benchmark datasets, we find that neural networks consistently demonstrate superior performance in terms of precision and recall. This work represents the first step towards practical neural-network based prefetching, and opens a wide range of exciting directions for machine learning in computer architecture research.

연구 동기 및 목표

메모리 벽 문제의 동기 부여와 표 기반 하드웨어 예측기 이상의 확장 가능한 예측 기법의 필요성.
시퀀스 모델, 특히 LSTM이 프리패칭을 안내하기 위해 메모리 미스를 예측할 수 있는지 조사.
두 가지 LSTM 기반 프리패처 아키텍처를 개발하고 실용성과 정확도를 평가.
현실적 벤치마크 트레이스에서 신경 프리패처를 전통적 하드웨어 프리패처와 비교.
메모리 접근 트레이스의 학습된 구조에 대한 통찰과 하드웨어 통합의 잠재 방향 제시

제안 방법

주소 공간을 델타 값의 어휘 또는 클러스터의 분류 가능 표로 다루어 프리패칭을 이산 분류 문제로 형식화한다.
입력 PC와 델타를 가진 임베딩 LSTM을 개발하고 프리패칭을 위한 상위 10개 델타 예측 출력을 사용한다.
클러스터링 + LSTM을 개발하여 공유 가중치와 특징으로 클러스터 ID를 사용하는 지역 주소 공간을 모델링한다.
SPEC CPU2006 벤치마크 트레이스와 구글 웹 검색 워크로드의 오프라인 트레이스로 학습하고 70/30의 학습/테스트 분할을 사용한다.
정밀도-at-10 및 재현율-at-10을 평가하며 10스트림 하드웨어 프리패처와 GHB PC/DC 상관 프리패처와 비교한다.
덧셈 입력으로 델타(Addr_{N+1}-Addr_N)를 사용하여 클러스터 내 어휘 크기 및 일관성을 향상시킨다

실험 결과

연구 질문

RQ1시퀀스 기반 모델(LSTM)이 메모리 접근에 대한 정밀도와 재현율 면에서 전통적 하드웨어 프리패처를 능가할 수 있는가?
RQ2출력 공간을 델타 또는 클러스터된 주소를 통해 이산화하는 것이 현실적인 하드웨어 규모에서 효과적인 신경 프리패칭을 가능하게 하는가?
RQ3입력 모달리티(PC 대 델타)가 프리패칭에 대한 예측 정보에 어떻게 기여하는가?
RQ4임베딩 기반 LSTM과 클러스터링 기반 LSTM 간의 정확도, 모델 크기, 메모리 접근의 지역성 측면의 트레이드오프는 무엇인가?

주요 결과

데이터셋	Misses (M)	PCs	Addrs	Deltas	Addrs 50% mass	Deltas 50% mass
gems	500	3278	13.11M	2.47M	4.28M	18
astar	500	211	0.53M	1.77M	0.06M	15
bwaves	491	893	14.20M	3.67M	3.03M	2
lbm	500	55	6.60M	709	3.06M	9
leslie3d	500	2554	1.23M	0.03M	0.23M	15
libquantum	470	46	0.52M	30	0.26M	1
mcf	500	174	27.41M	30.82M	0.07M	0.09M
milc	500	898	3.74M	9.68M	0.87M	46
omnetpp	449	976	0.71M	5.01M	0.12M	4613
soplex	500	1218	3.49M	5.27M	1.04M	10
sphinx	283	693	0.21M	0.37M	0.03M	3
websearch	500	54600	77.76M	96.41M	0.33M	5186

신경망 프리패처는 다양한 벤치마크에서 전통적 하드웨어 프리패처보다 더 높은 정밀도와 재현율을 달성한다.
임베딩 LSTM과 클러스터링 + LSTM은 정밀도 면에서 비슷한 성과를 보이고, 클러스터링 + LSTM은 다중 어휘로 인해 재현율이 더 높다.
델타를 입력으로 사용하는 것이 정밀도에 가장 큰 예측 정보를 제공하는 반면, PC는 재현율에 기여한다.
주소 공간을 지역으로 클러스터링하면 어휘 크기와 모델 규모가 감소하고 가중치를 공유하는 다중 작업 LSTM을 가능하게 한다.
학습된 표현에서 해석 가능한 구조가 나타나며(예: t-SNE 시각화가 코드 패턴 의미를 드러냄)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.