Skip to main content
QUICK REVIEW

[论文解读] Configurable memory systems for embedded many-core processors

Daniel Bates, Alex Chadwick|arXiv (Cornell University)|Jan 5, 2016
Parallel Computing and Optimization Techniques参考文献 10被引用 1
一句话总结

本文提出了一种用于嵌入式多核处理器的运行时可重构内存系统,通过动态优化缓存和内存配置,提升性能与能效。通过根据工作负载特性定制内存组织结构,该方法在平均性能上相比固定配置提升了20%,缓存未命中率降低70%,并通过专业化设计使AES加密性能接近翻倍。

ABSTRACT

The memory system of a modern embedded processor consumes a large fraction of total system energy. We explore a range of different configuration options and show that a reconfigurable design can make better use of the resources available to it than any fixed implementation, and provide large improvements in both performance and energy consumption. Reconfigurability becomes increasingly useful as resources become more constrained, so is particularly relevant in the embedded space. For an optimised architectural configuration, we show that a configurable cache system performs an average of 20% (maximum 70%) better than the best fixed implementation when two programs are competing for the same resources, and reduces cache miss rate by an average of 70% (maximum 90%). We then present a case study of AES encryption and decryption, and find that a custom memory configuration can almost double performance, with further benefits being achieved by specialising the task of each core when parallelising the program.

研究动机与目标

  • 应对嵌入式多核处理器因功耗和资源受限而日益严峻的能效与性能挑战。
  • 克服固定内存架构无法适应多样化应用工作负载的局限性。
  • 探究在性能与能效方面,运行时可重构内存系统是否能超越固定设计。
  • 研究软件专业化与动态内存配置如何减少数据移动并提升缓存利用率。
  • 在真实工作负载(如AES加密)中展示可重构内存的优势,通过定制化实现性能与能效的提升。

提出的方法

  • 以Loki分块多核架构为基线,每块包含8个核心和8个内存银行,采用网络化通信实现低延迟的组件间数据传输。
  • 实现一种可重构内存系统,支持根据应用需求在运行时动态重映射和重组内存银行。
  • 通过软件叠加层定制内存层次结构(如缓存大小、关联度及数据/指令分区),以适配特定工作负载。
  • 采用基于网络的通信机制,使用阻塞缓冲区和专用通道区分不同流量类型(如L1→L2、响应信号),确保无死锁运行。
  • 通过仿真与案例研究评估不同配置,重点关注性能、能效与缓存未命中率的降低。
  • 引入一种运行时动态重构机制,支持在计算不同阶段(如主循环与初始化阶段)之间自适应调整。

实验结果

研究问题

  • RQ1可重构内存系统是否能在性能与能效方面超越嵌入式多核处理器中的固定内存架构?
  • RQ2在多核环境中,内存系统的最优配置选项是什么?这些选项在不同工作负载间如何变化?
  • RQ3在运行时动态重构内存层次结构,能在多大程度上减少缓存未命中率并提升性能?
  • RQ4对内存组织进行软件专业化对真实应用(如AES加密)有何影响?
  • RQ5在资源受限的嵌入式系统中,可重构性开销与性能增益之间存在何种权衡?

主要发现

  • 对于包含两个竞争程序的工作负载,可重构缓存系统相比最佳固定配置,平均实现20%的性能提升与70%的缓存未命中率降低。
  • 最大性能提升达70%,缓存未命中率最大降低达90%,表明在资源竞争环境下具有显著优势。
  • 在AES加密与解密的案例研究中,通过优化数据与指令内存分配的定制化内存配置,性能接近翻倍。
  • 在并行化AES执行中,对每个核心的任务进行专业化进一步提升了性能,凸显了硬件重构与软件专业化之间的协同效应。
  • 可重构系统减少了数据移动并降低了对大型高功耗内存结构的依赖,提升了能效,且未增加面积开销。
  • 在资源受限条件下,可重构性优势最为显著,使其特别适用于功耗与面积预算严格的嵌入式系统。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。