Skip to main content
QUICK REVIEW

[论文解读] DEW: a fast level 1 cache simulation approach for embedded processors with FIFO replacement policy

Mohammad Shihabul Haque, Jorgen Peddersen|arXiv (Cornell University)|Mar 8, 2010
Parallel Computing and Optimization Techniques参考文献 16被引用 15
一句话总结

本文提出 DEW,一种用于嵌入式处理器中一级缓存的快速且精确的模拟方法,采用先进先出(FIFO)替换策略。通过利用基于二项树的缓存表示方法和优化的搜索算法,DEW 在保持精确缺失率准确性的前提下,相比 Dinero IV 实现了 8 至 40 倍的性能提升,显著减少了所需的缓存组比较次数。

ABSTRACT

Increasing the speed of cache simulation to obtain hit/miss rates enables performance estimation, cache exploration for embedded systems and energy estimation. Previously, such simulations, particularly exact approaches, have been exclusively for caches which utilize the least recently used (LRU) replacement policy. In this paper, we propose a new, fast and exact cache simulation method for the First In First Out(FIFO) replacement policy. This method, called DEW, is able to simulate multiple level 1 cache configurations (different set sizes, associativities, and block sizes) with FIFO replacement policy. DEW utilizes a binomial tree based representation of cache configurations and a novel searching method to speed up simulation over single cache simulators like Dinero IV. Depending on different cache block sizes and benchmark applications, DEW operates around 8 to 40 times faster than Dinero IV. Dinero IV compares 2.17 to 19.42 times more cache ways than DEW to determine accurate miss rates.

研究动机与目标

  • 解决嵌入式系统中 FIFO 替换策略缓存缺乏快速且精确模拟技术的问题。
  • 实现对一级缓存不同配置下的高效性能估算与缓存探索。
  • 相比现有精确模拟器(如仅支持 LRU 策略的 Dinero IV),显著缩短模拟时间。
  • 在不牺牲命中/缺失率计算准确性的前提下,实现高速模拟。

提出的方法

  • 使用基于二项树的数据结构表示缓存配置,以高效编码集合大小、关联度和块大小。
  • 实现一种新颖的搜索算法,减少地址查找过程中所需的缓存组比较次数。
  • 通过利用 FIFO 替换的结构特性,优化模拟过程,避免冗余检查。
  • 将二项树表示方法与周期精确的模拟引擎集成,以保持精确的缺失率结果。
  • 确保与标准基准工作负载及多种缓存配置的兼容性。
  • 通过减少每次内存访问的内存访问次数和比较次数,最小化计算开销。

实验结果

研究问题

  • RQ1如何加速嵌入式处理器一级缓存中 FIFO 替换策略的精确缓存模拟?
  • RQ2与传统模拟器相比,基于二项树的表示方法在模拟速度上的提升程度如何?
  • RQ3在不同缓存块大小和基准测试下,DEW 与 Dinero IV 在模拟时间和准确性方面有何对比?
  • RQ4DEW 相较于 Dinero IV 在缓存组比较次数上实现了多大程度的减少?

主要发现

  • 在某些基准测试和缓存配置下,DEW 相较于 Dinero IV 实现了最高 40 倍的加速,最低也有 8 倍的加速。
  • 在所有测试配置中,DEW 均显著快于 Dinero IV,同时保持了精确的缺失率结果。
  • DEW 所需的缓存组比较次数仅为 Dinero IV 的 2.17 至 19.42 倍,显著减少。
  • 性能提升在不同块大小和基准应用中均保持一致,表现出良好的鲁棒性。
  • 基于二项树的表示方法实现了高效模拟,且不牺牲准确性或可配置性。
  • 该方法在嵌入式系统中尤为有效,因为快速且准确的缓存模拟对设计探索至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。