Skip to main content
QUICK REVIEW

[논문 리뷰] Fully Symbolic Analysis of Loop Locality: Using Imaginary Reuse to Infer Real Performance

Yifan Zhu, Yekai Pan|arXiv (Cornell University)|2026. 03. 10.
Parallel Computing and Optimization Techniques인용 수 0
한 줄 요약

이 논문은 상징적 로컬리티 이론을 통해 상상의 재사용(imaginary reuses)을 활용해 콜드 스타트 시작을 처리하고, 어파인 루프와 광범위 커널 세트에 대해 캐시 관련 다항식을 도출해 빠른 캐시 미스 예측을 가능하게 한다. 두 패스 컴파일러 분석을 제시하고 캐시 시뮬레이션에 대한 높은 정확성을 입증한다.

ABSTRACT

This paper presents a new theory of locality and its compiler support. The theory is fully symbolic and derives locality as polynomials, and the compiler analysis supports affine loop nests. They derive cache-performance scaling in quadratic and reciprocal expressions and are more general and precise than empirical scaling rules. Evaluated on a benchmark suite of 41 scientific kernels and tensor operations, the compiler requires an average of 41 seconds to derive the locality polynomials. After derivation, predicting the cache miss count for any given input size and cache configuration takes less than a millisecond. Across all tests--with and without loop fusion--the accuracy in the data movement prediction is 99.6\%, compared to simulated set-associative L1 data cache.

연구 동기 및 목표

  • 머신 매개변수와 프로그램 매개변수 전반에 걸쳐 확장될 수 있는 로컬리티의 완전한 대수적 특성화를 제시한다.
  • 어파인 루프 중첩에 대해 캐시 크기와 미스 다항식을 산출하는 기호적 프레임워크를 개발한다.
  • Infinite Repeat 하에서 최초 접속을 처리하고 발산을 피하기 위해 상상의 재사용을 도입한다.
  • 어파인 프로그램을 매개변수화된 다면체로 변환하고 RI 분포를 생성하는 컴파일러 워크플로를 제공한다.
  • 루프 융합을 고려한 41개의 과학 커널 및 텐서 연산에서 정확성과 성능을 평가한다.

제안 방법

  • 재사용 간격(RI)을 정의하고 RI 분포로부터 Denning 재귀를 통해 캐시 다항식을 도출한다.
  • 무한 반복(Infinite Repeat)과 상상의 재사용을 도입하여 최초 접속을 다루고 발산을 피한다.
  • 작업 집합의 정확성과 RI 합의 불변성을 증명하여 기호적 결과를 검증한다.
  • 정수 집합 프로그래밍과 Barvinok 카운팅을 사용해 어파인 루프를 매개변수화된 다면체로 변환하고 RI 분포를 부분적으로 준다항식으로 얻는다.
  • LRU 캐시 동작을 미스 비율을 작업집합 기반 다항식에 매핑하여 근사하고 콜드 스타트 미스를 보정한다.
  • MLIR 기반의 기호적 로컬리티 프레임워크에서 두 패스 컴파일러 분석의 타당성을 정당화한다.
Figure 8 . Tensor Contraction Kernel Miss Count Curves
Figure 8 . Tensor Contraction Kernel Miss Count Curves

실험 결과

연구 질문

  • RQ1Affine 루프에 대한 로컬리티를 캐시 크기 및 RI 분포의 다항식으로 대수적으로 어떻게 특성화할 수 있는가?
  • RQ2상상의 재사용이 콜드 스타트 딜레마를 해결하고 올바른 작업집합 및 미스 다항식 예측을 제공할 수 있는가?
  • RQ3로컬리티 다항식 도출의 계산 비용은 얼마이며 하드웨어 시뮬레이션과 얼마나 정확한가?
  • RQ4Affine MLIR 표현을 통해 Barvinok 카운팅으로 완전한 RI 분포를 어떻게 계산할 수 있는가?
  • RQ5루프 융합이 데이터 이동 및 로컬리티 다항식에 어떤 영향을 미치는가?

주요 결과

RIP(ri)m (ri)Cold Miss Ratioc (ri)
0--1-
111/43/4-1
231/4-1/(32n)1/2+1/(32n)-3
347/329/32+1/(32n)-5
44n-281/32-1/(32n)1/4+1/(16n)-9n/8-47/8-31/(32n)
54n7/321/32+1/(16n)-9n/8+9/8+25/(32n)
6*4n^{2}-28n1/323/(32n)1/(32n)n^{2}/8+3n/8-7/8+25/(32n)
7*4n^{3}-4n^{2}+4n-283/(32n)3/(32n)2/(32n)3n^{2}/8-n/8+9/8-31/(32n)
8*4n^{3}-32n+31/(32n)3/(32n)3/(32n)3n^{2}/8
  • RI 분포에서 선형 시간으로 캐시 미스 다항식을 도출할 수 있는 새로운 대수적 로컬리티 이론.
  • 상상의 재사용이 콜드 스타트 문제를 해결하고 Infinite Repeat 하에서 Denning 재귀의 정확성을 유지한다.
  • RI 합 불변성은 RI 값과 부분의 일관성을 검증하는 실용적 기호 테스트를 제공한다.
  • 41개 커널 및 텐서 연산 전반에서 이 방법은 세트 연관 L1 시뮬레이션에 대해 높은 정확도로 캐시 미스를 예측하며 데이터 이동 예측이 최대 99.6%까지 가능하다.
  • 루프 융합은 로컬리티 다항식과 스케일링에 영향을 주며 융합된 구성과 미융합 구성을 비교하는 프레임워크의 능력을 보여준다.
Figure 9 . Prediction error across 30 Polybench benchmarks under varying cache configurations. Columns represent fully associative (FA) and 12-way associative (12WA) caches at different sizes. The cell color reflects the amount of prediction error, while the digits in each cell indicate the simulate
Figure 9 . Prediction error across 30 Polybench benchmarks under varying cache configurations. Columns represent fully associative (FA) and 12-way associative (12WA) caches at different sizes. The cell color reflects the amount of prediction error, while the digits in each cell indicate the simulate

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.