QUICK REVIEW
[论文解读] MRAM Co-designed Processing-in-Memory CNN Accelerator for Mobile and IoT Applications
Baohua Sun, Daniel Liu|arXiv (Cornell University)|Nov 26, 2018
Advanced Memory and Neural Computing参考文献 5被引用 24
一句话总结
本论文提出了一款基于22nm CMOS工艺的MRAM协同设计的存内计算CNN加速器,通过用自旋转移矩MRAM替代SRAM实现非易失性权重存储,实现了9.9 TOPS/W的能效。该架构可在单枚芯片上同时执行多个AI模型(如图像和语音识别),突破了SRAM在密度和漏电方面的限制。
ABSTRACT
We designed a device for Convolution Neural Network applications with non-volatile MRAM memory and computing-in-memory co-designed architecture. It has been successfully fabricated using 22nm technology node CMOS Si process. More than 40MB MRAM density with 9.9TOPS/W are provided. It enables multiple models within one single chip for mobile and IoT device applications.
研究动机与目标
- 解决移动和物联网应用中基于SRAM的CNN加速器在功耗和内存密度方面的限制。
- 实现在芯片上持久、非易失性地存储多个深度学习模型权重,消除对外部存储器的依赖。
- 通过协同设计STT-MRAM与存内计算架构,实现超高的能效(TOPS/W)。
- 支持在单枚芯片上同时执行多个AI工作负载(如人脸识别和语音识别)。
- 展示在CNN加速器中嵌入超过40MB的MRAM密度以实现真实移动和物联网部署的可行性。
提出的方法
- 采用22nm CMOS工艺协同设计了基于片上STT-MRAM实现非易失性权重存储的CNN矩阵处理引擎(MPE)。
- 为模型权重使用15位领域专用浮点数(DSFP),为激活值使用9位DSFP,以在精度与面积/功耗之间取得平衡。
- 实现了一种存内计算架构,其中MAC阵列使用来自SRAM的数据和来自MRAM的权重执行卷积运算。
- 采用分层内存层次结构:MRAM用于长期模型存储,SRAM用于高带宽的中间激活值存储。
- 集成控制单元以协调MRAM、SRAM与MAC阵列之间的数据流,并采用时钟偏移电路实现循环数据访问。
- 利用STT-MRAM的高耐久性与低漏电特性(25°C时为5.5mW,70°C时为7.2mW),相比SRAM(70°C时为136mW)显著降低了待机功耗。
实验结果
研究问题
- RQ1STT-MRAM能否在CNN加速器中替代SRAM,在保持高性能的同时提升内存密度并降低漏电功耗?
- RQ2与STT-MRAM协同设计的存内计算CNN加速器可实现的能效(TOPS/W)是多少?
- RQ3单枚芯片能否利用非易失性MRAM实现模型持久化,同时执行多个AI模型(如图像和语音识别)?
- RQ4在高温条件下,MRAM用于权重存储的功耗与真实硅片中的SRAM相比如何?
- RQ5所提出的架构能否在无需外部存储器的情况下,支持集成推理或多模态AI工作负载在单枚芯片上的运行?
主要发现
- 所制造的22nm基于MRAM的CNN加速器实现了9.9 TOPS/W的能效,相比先前基于SRAM的记录(9.3 TOPS/W)提升了6.5%。
- MRAM在待机状态下的功耗显著更低(25°C时为5.5mW,70°C时为7.2mW),相比SRAM(分别为34.3mW和136mW),漏电功耗降低高达80%。
- 芯片实现了超过40MB的嵌入式MRAM密度,相比先前基于SRAM的CNN-DSA(9MB)提升了4.5倍,支持在芯片上存储多个模型。
- 芯片成功在单枚芯片上同时执行了图像分类与语音识别的推理任务,验证了多模型处理能力。
- 在12.5MHz频率下,芯片可处理3帧224×224×3的RGB图像,达到35fps,足以满足实时移动和物联网应用需求。
- 功耗分析显示,MRAM权重存储仅占芯片总功耗的约25%,其余75%由计算与数据移动功耗构成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。